Claude Code 手动减少 token 消耗的方法

在Vibe Coding中，最大的烦恼莫过于Token不够用，每天都会收到昂贵的账单。最大的 token 消耗来源其实是对话历史——每轮都会带上之前所有内容。

以后使用AI编程的时候可使用以下方法手动减少token消耗：

一、.claudeignore / .gitignore 文件过滤——📥 初期配置，终身受益

原理：一次性配置，AI永不读取这些文件。依赖库node_modules、构建产物dist/build、锁文件、日志等都是消耗大户，尤其node_modules单次读取可能就吃掉几万token，直接禁止读取是效果最明显的优化。

操作：在项目根目录创建.claudeignore（或配置到系统提示中），写入：

node_modules/
dist/
build/
.next/
__pycache__/
*.log
*.lock
.git/

效果预估：单次交互token可降低60%以上。

适用场景：任何项目——配一次，永远省。

二、/clear 任务间清空会话，/compact保留摘要压缩会话

原理：会话历史会随着对话累积，每条新消息都重传之前的完整上下文。当你完成一个独立任务后，历史内容对新项目纯属噪音，还浪费token进行回忆。

操作：任务结束后输入/clear（或/reset）。

效果预估：清理后下一个任务的token基线降为原来的几分之一。

注意：/clear会清空所有历史，而/compact保留摘要——如果你还在做同一个大任务，用/compact；彻底换项目了，用/clear。

三、按任务选模型——🔧 会切换就省大头

模型档位	适用场景	成本差异
Haiku级	简单编辑、单文件改动、写文档、搜索探索	最便宜
Sonnet级	多文件实现、PR审查、日常开发	性价比之王
Opus级	复杂架构设计、安全分析、深度推理	Opus输入价格约Sonnet的5倍，官方建议Opus是Sonnet的2倍，每次使用前想清楚值不值

Anthropic官方推荐：90%的编码任务用Sonnet级，只在特定情况才升级到Opus级。

操作：/model haiku | sonnet | opus

四、/rewind（双击ESC）回退——♻️ 不走回头路

原理：当前对话中试了一种方案没走通，更好的做法不是继续纠正，而是用/rewind回退到决策分叉点，从那里重新开始。纠正时所有失败中间过程仍留在上下文里，稀释注意力；回退则丢弃失败分支，只保留有效信息。

场景：Claude读了5个文件，尝试了一种方法没成功 → 双击ESC回到读文件结束那一刻 → 带着新信息重新给指令（“别用方案A，直接走B”）。有用的信息保住了，错误的上下文丢了。Anthropic官方把这定义为五个管理策略之一。

五、/btw 侧边聊天——🗣️ 分离闲聊与主任务

原理：开发途中突然想到个无关问题（比如“Python装饰器是怎么工作的”）——正常问会污染主对话的历史。/btw把这个的对话隔离到侧边，不占用主会话上下文，问完后可直接切回原任务。

操作：/btw 你的无关问题

效果：主任务历史不受污染；Claude不会因闲聊而“分心”。

六、CLAUDE.md 固化项目指令——📋 一次性配置

原理：CLAUDE.md在每次会话启动时重新注入，置入项目架构、编码规范、常用命令等固定信息。这样做的好处：不用每次新会话都重讲一遍上下文，token不重复消耗，还确保AI行为一致；更重要的是，/compact后CLAUDE.md信息永远不会丢失，而对话中随口说的内容会消失。

操作：项目根目录创建CLAUDE.md，写入：

# 项目概述：Next.js 14 + TypeScript + Prisma
# 目录结构：src/app/、src/components/、src/lib/
# 开发命令：pnpm dev、pnpm build

效果预估：减少cat/find/grep探索调用，节省30%+无效token。

七、/memory 固化重复信息——💾 省掉每次输入

原理：跨会话保存常用信息，如“数据库连接字符串在.env”、“测试用npm run test:unit”等。

操作：存入用/memory 项目用 Next.js 14，查看用/memory list，删除用/memory delete [key]。

效果预估：节省40%+重复输入。

八、禁用 Fast Mode（通用技巧）——⚡ 用普通速度反而省

原理：Fast Mode的token成本是普通模式的6倍，影响巨大。源码剖析表明，Opus级在Fast Mode下输入$30/百万token、输出$150/百万token；普通模式则是$5/$25。而且Fast Mode有rate limit——触发后悄悄踢回普通模式，但你支付的一直是Fast Mode价格。

操作：注意模型设置中是否开启了类似“快速/高优先级模式”，若在消耗模型中能找到类似开关，建议保持关闭。

九、子代理隔离上下文（项目级场景）——🌿 避免互相污染

原理：大型任务像流水线一样拆成：调研→规划→实现→审查→验证，每个agent只做一件事，输出存文件作为下一阶段的输入。关键是在阶段间用/clear清理上下文。

实操方式：

Phase 1：用探索Agent调研，输出research-summary.md
执行/clear
Phase 2：用规划Agent做规划，输出plan.md
Phase 3：实现代码改动
Phase 4：代码审查，输出review-comments.md

效果：防止上下文爆炸。在一次黑客松冠军方案中，作者明确要求“每个Agent只有一个清晰的输入，产出清晰的输出，中间用/clear清理上下文”。

十、按任务分块（通用）——📦 大任务切小块，单独分别处理

原理：将大任务拆成3个独立上下文块分别喂给模型，每个块的token数控制在上下文窗口的50%以内。这种方法让每个块的任务聚焦，互不干扰，同时控制响应质量——长上下文会导致注意力分散。

效果：避免让一个对话窗口累计了几十万token历史，模型“看不过来”。

十一、Cache 读取复用（系统层面）——📚 重复读取的便宜复用

原理：在API调用中，prompt cache让模型只计算变更部分，相同内容重复读取时成本极低。源码中发现的计价：读缓存token仅$0.3/百万token，而普通输入是$3/百万token。

怎么用：这个机制通常是系统自动的，不需要你主动干预。你需要做的只是避免每次都用完全不同的内容。如果一个任务中反复使用相同的上下文（比如同一套README或CLAUDE.md），系统的缓存机制会自动帮你省钱。

十二、结构化复盘接力（跨会话）——🔁 长项目跨会话无缝衔接

原理：大项目需要跨多个对话继续。结束时让Claude做结构化复盘：项目当前目标、已实现部分、未实现部分、关键决策、开发约束。新会话时给Claude喂这个复盘文件，约1分钟内无缝续上工作。

示例（结束时的提示词） ：

请复盘当前会话：1.项目目标：XXX；2.已实现功能：列出清单；3.待办事项：按优先级排序；4.关键技术决策：记录理由；5.开发约束与偏好。

新会话的提示词：

加载复盘文件，从上次结束点继续。开始于：……

效果：避免重复积累上下文，也不用每轮把以前的任务重解释一遍。

十三、外部压缩工具（如TokenPress）——🔧 新任务前的预处理

原理：Prompt的历史信息、描述和项目背景常充斥着低信息量内容——可有可无的修饰词、一堆背景故事、重复度高的文件等。TokenPress用信息论原理压缩原始prompt：每个token按“惊喜度”打分，高信息保留、低信息移除，然后才发给AI。

优势：这是第三方工具，适用于任何模型（包括MiMo-V2.5-Pro等），不依赖Claude Code命令，可以作为预处理步骤在任何LLM任务前插入。

操作（Python示例）：

import tokenpress
result = tokenpress.compress("你的长prompt内容...", ratio=0.3)  # 压缩到原始长度的30%

tokenpress compress document.txt -r 0.3 -o compressed.txt

效果：压缩率3.3倍，接近无损质量；可降低2-5倍API成本。

跨模型通用建议

MiMo-V2.5-Pro、DeepSeek-V4-Flash、Qwen3.5-Plus在不同方面各有优势：

DeepSeek-V4-Flash推理速度快，在上下文不太长的轻度任务中使用；
MiMo-V2.5-Pro/Qwen3.5-Plus成本较低且支撑更多token数，可用于长上下文场景。
策略：简单编辑/快速探索用低成本模型，复杂架构设计和多文件深层逻辑用MiMo-V2.5-Pro仔细推。

⚠️ 核心原则回顾：AI编程的token消耗中，输入（Input）占70%–90%。优化重点永远是减少输入的内容，而不是纠结输出。
“核心原则：让Claude做的每一步都有明确目的”——结合上述方法（文件过滤直接砍主输入、/clear快速清理历史、按任务拆分减少跨阶段污染、/rewind避免无效分支、/btw隔离闲聊信息），这思路在所有前沿模型中都行之有效。