Claude Code 手动减少 token 消耗的方法
Claude Code减少token消耗的13种方法,核心原则是减少输入内容。关键方法包括:.claudeignore过滤文件、/compact压缩会话、ESC按钮回退、/btw隔离闲聊、CLAUDE.md固化指令等,可大幅降低成本。
在Vibe Coding中,最大的烦恼莫过于Token不够用,每天都会收到昂贵的账单。最大的 token 消耗来源其实是对话历史——每轮都会带上之前所有内容。
以后使用AI编程的时候可使用以下方法手动减少token消耗:
一、.claudeignore / .gitignore 文件过滤——📥 初期配置,终身受益
原理:一次性配置,AI永不读取这些文件。依赖库node_modules、构建产物dist/build、锁文件、日志等都是消耗大户,尤其node_modules单次读取可能就吃掉几万token,直接禁止读取是效果最明显的优化。
操作:在项目根目录创建.claudeignore(或配置到系统提示中),写入:
node_modules/
dist/
build/
.next/
__pycache__/
*.log
*.lock
.git/
效果预估:单次交互token可降低60%以上。
适用场景:任何项目——配一次,永远省。
二、/clear 任务间清空会话,/compact保留摘要压缩会话
原理:会话历史会随着对话累积,每条新消息都重传之前的完整上下文。当你完成一个独立任务后,历史内容对新项目纯属噪音,还浪费token进行回忆。
操作:任务结束后输入/clear(或/reset)。
效果预估:清理后下一个任务的token基线降为原来的几分之一。
注意:/clear会清空所有历史,而/compact保留摘要——如果你还在做同一个大任务,用/compact;彻底换项目了,用/clear。
三、按任务选模型——🔧 会切换就省大头
| 模型档位 | 适用场景 | 成本差异 |
|---|---|---|
| Haiku级 | 简单编辑、单文件改动、写文档、搜索探索 | 最便宜 |
| Sonnet级 | 多文件实现、PR审查、日常开发 | 性价比之王 |
| Opus级 | 复杂架构设计、安全分析、深度推理 | Opus输入价格约Sonnet的5倍,官方建议Opus是Sonnet的2倍,每次使用前想清楚值不值 |
Anthropic官方推荐:90%的编码任务用Sonnet级,只在特定情况才升级到Opus级。
操作:/model haiku | sonnet | opus
四、/rewind(双击ESC)回退——♻️ 不走回头路
原理:当前对话中试了一种方案没走通,更好的做法不是继续纠正,而是用/rewind回退到决策分叉点,从那里重新开始。纠正时所有失败中间过程仍留在上下文里,稀释注意力;回退则丢弃失败分支,只保留有效信息。
场景:Claude读了5个文件,尝试了一种方法没成功 → 双击ESC回到读文件结束那一刻 → 带着新信息重新给指令(“别用方案A,直接走B”)。有用的信息保住了,错误的上下文丢了。Anthropic官方把这定义为五个管理策略之一。
五、/btw 侧边聊天——🗣️ 分离闲聊与主任务
原理:开发途中突然想到个无关问题(比如“Python装饰器是怎么工作的”)——正常问会污染主对话的历史。/btw把这个的对话隔离到侧边,不占用主会话上下文,问完后可直接切回原任务。
操作:/btw 你的无关问题
效果:主任务历史不受污染;Claude不会因闲聊而“分心”。
六、CLAUDE.md 固化项目指令——📋 一次性配置
原理:CLAUDE.md在每次会话启动时重新注入,置入项目架构、编码规范、常用命令等固定信息。这样做的好处:不用每次新会话都重讲一遍上下文,token不重复消耗,还确保AI行为一致;更重要的是,/compact后CLAUDE.md信息永远不会丢失,而对话中随口说的内容会消失。
操作:项目根目录创建CLAUDE.md,写入:
# 项目概述:Next.js 14 + TypeScript + Prisma
# 目录结构:src/app/、src/components/、src/lib/
# 开发命令:pnpm dev、pnpm build
效果预估:减少cat/find/grep探索调用,节省30%+无效token。
七、/memory 固化重复信息——💾 省掉每次输入
原理:跨会话保存常用信息,如“数据库连接字符串在.env”、“测试用npm run test:unit”等。
操作:存入用/memory 项目用 Next.js 14,查看用/memory list,删除用/memory delete [key]。
效果预估:节省40%+重复输入。
八、禁用 Fast Mode(通用技巧)——⚡ 用普通速度反而省
原理:Fast Mode的token成本是普通模式的6倍,影响巨大。源码剖析表明,Opus级在Fast Mode下输入$30/百万token、输出$150/百万token;普通模式则是$5/$25。而且Fast Mode有rate limit——触发后悄悄踢回普通模式,但你支付的一直是Fast Mode价格。
操作:注意模型设置中是否开启了类似“快速/高优先级模式”,若在消耗模型中能找到类似开关,建议保持关闭。
九、子代理隔离上下文(项目级场景)——🌿 避免互相污染
原理:大型任务像流水线一样拆成:调研→规划→实现→审查→验证,每个agent只做一件事,输出存文件作为下一阶段的输入。关键是在阶段间用/clear清理上下文。
实操方式:
- Phase 1:用探索Agent调研,输出research-summary.md
- 执行
/clear - Phase 2:用规划Agent做规划,输出plan.md
- Phase 3:实现代码改动
- Phase 4:代码审查,输出review-comments.md
效果:防止上下文爆炸。在一次黑客松冠军方案中,作者明确要求“每个Agent只有一个清晰的输入,产出清晰的输出,中间用/clear清理上下文”。
十、按任务分块(通用)——📦 大任务切小块,单独分别处理
原理:将大任务拆成3个独立上下文块分别喂给模型,每个块的token数控制在上下文窗口的50%以内。这种方法让每个块的任务聚焦,互不干扰,同时控制响应质量——长上下文会导致注意力分散。
效果:避免让一个对话窗口累计了几十万token历史,模型“看不过来”。
十一、Cache 读取复用(系统层面)——📚 重复读取的便宜复用
原理:在API调用中,prompt cache让模型只计算变更部分,相同内容重复读取时成本极低。源码中发现的计价:读缓存token仅$0.3/百万token,而普通输入是$3/百万token。
怎么用:这个机制通常是系统自动的,不需要你主动干预。你需要做的只是避免每次都用完全不同的内容。如果一个任务中反复使用相同的上下文(比如同一套README或CLAUDE.md),系统的缓存机制会自动帮你省钱。
十二、结构化复盘接力(跨会话)——🔁 长项目跨会话无缝衔接
原理:大项目需要跨多个对话继续。结束时让Claude做结构化复盘:项目当前目标、已实现部分、未实现部分、关键决策、开发约束。新会话时给Claude喂这个复盘文件,约1分钟内无缝续上工作。
示例(结束时的提示词) :
请复盘当前会话:1.项目目标:XXX;2.已实现功能:列出清单;3.待办事项:按优先级排序;4.关键技术决策:记录理由;5.开发约束与偏好。
新会话的提示词:
加载复盘文件,从上次结束点继续。开始于:……
效果:避免重复积累上下文,也不用每轮把以前的任务重解释一遍。
十三、外部压缩工具(如TokenPress)——🔧 新任务前的预处理
原理:Prompt的历史信息、描述和项目背景常充斥着低信息量内容——可有可无的修饰词、一堆背景故事、重复度高的文件等。TokenPress用信息论原理压缩原始prompt:每个token按“惊喜度”打分,高信息保留、低信息移除,然后才发给AI。
优势:这是第三方工具,适用于任何模型(包括MiMo-V2.5-Pro等),不依赖Claude Code命令,可以作为预处理步骤在任何LLM任务前插入。
操作(Python示例):
import tokenpress
result = tokenpress.compress("你的长prompt内容...", ratio=0.3) # 压缩到原始长度的30%
tokenpress compress document.txt -r 0.3 -o compressed.txt
效果:压缩率3.3倍,接近无损质量;可降低2-5倍API成本。
跨模型通用建议
MiMo-V2.5-Pro、DeepSeek-V4-Flash、Qwen3.5-Plus在不同方面各有优势:
- DeepSeek-V4-Flash推理速度快,在上下文不太长的轻度任务中使用;
- MiMo-V2.5-Pro/Qwen3.5-Plus成本较低且支撑更多token数,可用于长上下文场景。
策略:简单编辑/快速探索用低成本模型,复杂架构设计和多文件深层逻辑用MiMo-V2.5-Pro仔细推。
⚠️ 核心原则回顾:AI编程的token消耗中,输入(Input)占70%–90%。优化重点永远是减少输入的内容,而不是纠结输出。
“核心原则:让Claude做的每一步都有明确目的”——结合上述方法(文件过滤直接砍主输入、/clear快速清理历史、按任务拆分减少跨阶段污染、/rewind避免无效分支、/btw隔离闲聊信息),这思路在所有前沿模型中都行之有效。
这次危险了
5
4
3
2
1
测试匿名在文章页面留言
匿名用户留言是不是又不行了
回复 @匿名游客:现在的bug是匿名用户的留言,不能删除