Claude Code 手动减少 token 消耗的方法

最佳<Coder
2026/4/30修改于 13天前

Claude Code减少token消耗的13种方法,核心原则是减少输入内容。关键方法包括:.claudeignore过滤文件、/compact压缩会话、ESC按钮回退、/btw隔离闲聊、CLAUDE.md固化指令等,可大幅降低成本。

在Vibe Coding中,最大的烦恼莫过于Token不够用,每天都会收到昂贵的账单。最大的 token 消耗来源其实是对话历史——每轮都会带上之前所有内容。

以后使用AI编程的时候可使用以下方法手动减少token消耗:

一、.claudeignore / .gitignore 文件过滤——📥 初期配置,终身受益

原理:一次性配置,AI永不读取这些文件。依赖库node_modules、构建产物dist/build、锁文件、日志等都是消耗大户,尤其node_modules单次读取可能就吃掉几万token,直接禁止读取是效果最明显的优化。

操作:在项目根目录创建.claudeignore(或配置到系统提示中),写入:

node_modules/
dist/
build/
.next/
__pycache__/
*.log
*.lock
.git/

效果预估:单次交互token可降低60%以上。

适用场景:任何项目——配一次,永远省。

二、/clear 任务间清空会话,/compact保留摘要压缩会话

原理:会话历史会随着对话累积,每条新消息都重传之前的完整上下文。当你完成一个独立任务后,历史内容对新项目纯属噪音,还浪费token进行回忆。

操作:任务结束后输入/clear(或/reset)。

效果预估:清理后下一个任务的token基线降为原来的几分之一。

注意/clear会清空所有历史,而/compact保留摘要——如果你还在做同一个大任务,用/compact;彻底换项目了,用/clear

三、按任务选模型——🔧 会切换就省大头

模型档位适用场景成本差异
Haiku级简单编辑、单文件改动、写文档、搜索探索最便宜
Sonnet级多文件实现、PR审查、日常开发性价比之王
Opus级复杂架构设计、安全分析、深度推理Opus输入价格约Sonnet的5倍,官方建议Opus是Sonnet的2倍,每次使用前想清楚值不值

Anthropic官方推荐:90%的编码任务用Sonnet级,只在特定情况才升级到Opus级。

操作/model haiku | sonnet | opus

四、/rewind(双击ESC)回退——♻️ 不走回头路

原理:当前对话中试了一种方案没走通,更好的做法不是继续纠正,而是用/rewind回退到决策分叉点,从那里重新开始。纠正时所有失败中间过程仍留在上下文里,稀释注意力;回退则丢弃失败分支,只保留有效信息。

场景:Claude读了5个文件,尝试了一种方法没成功 → 双击ESC回到读文件结束那一刻 → 带着新信息重新给指令(“别用方案A,直接走B”)。有用的信息保住了,错误的上下文丢了。Anthropic官方把这定义为五个管理策略之一。

五、/btw 侧边聊天——🗣️ 分离闲聊与主任务

原理:开发途中突然想到个无关问题(比如“Python装饰器是怎么工作的”)——正常问会污染主对话的历史。/btw把这个的对话隔离到侧边,不占用主会话上下文,问完后可直接切回原任务。

操作/btw 你的无关问题

效果:主任务历史不受污染;Claude不会因闲聊而“分心”。

六、CLAUDE.md 固化项目指令——📋 一次性配置

原理:CLAUDE.md在每次会话启动时重新注入,置入项目架构、编码规范、常用命令等固定信息。这样做的好处:不用每次新会话都重讲一遍上下文,token不重复消耗,还确保AI行为一致;更重要的是,/compact后CLAUDE.md信息永远不会丢失,而对话中随口说的内容会消失。

操作:项目根目录创建CLAUDE.md,写入:

# 项目概述:Next.js 14 + TypeScript + Prisma
# 目录结构:src/app/、src/components/、src/lib/
# 开发命令:pnpm dev、pnpm build

效果预估:减少cat/find/grep探索调用,节省30%+无效token。

七、/memory 固化重复信息——💾 省掉每次输入

原理:跨会话保存常用信息,如“数据库连接字符串在.env”、“测试用npm run test:unit”等。

操作:存入用/memory 项目用 Next.js 14,查看用/memory list,删除用/memory delete [key]

效果预估:节省40%+重复输入。

八、禁用 Fast Mode(通用技巧)——⚡ 用普通速度反而省

原理:Fast Mode的token成本是普通模式的6倍,影响巨大。源码剖析表明,Opus级在Fast Mode下输入$30/百万token、输出$150/百万token;普通模式则是$5/$25。而且Fast Mode有rate limit——触发后悄悄踢回普通模式,但你支付的一直是Fast Mode价格。

操作:注意模型设置中是否开启了类似“快速/高优先级模式”,若在消耗模型中能找到类似开关,建议保持关闭。

九、子代理隔离上下文(项目级场景)——🌿 避免互相污染

原理:大型任务像流水线一样拆成:调研→规划→实现→审查→验证,每个agent只做一件事,输出存文件作为下一阶段的输入。关键是在阶段间用/clear清理上下文。

实操方式

  • Phase 1:用探索Agent调研,输出research-summary.md
  • 执行/clear
  • Phase 2:用规划Agent做规划,输出plan.md
  • Phase 3:实现代码改动
  • Phase 4:代码审查,输出review-comments.md

效果:防止上下文爆炸。在一次黑客松冠军方案中,作者明确要求“每个Agent只有一个清晰的输入,产出清晰的输出,中间用/clear清理上下文”。

十、按任务分块(通用)——📦 大任务切小块,单独分别处理

原理:将大任务拆成3个独立上下文块分别喂给模型,每个块的token数控制在上下文窗口的50%以内。这种方法让每个块的任务聚焦,互不干扰,同时控制响应质量——长上下文会导致注意力分散。

效果:避免让一个对话窗口累计了几十万token历史,模型“看不过来”。

十一、Cache 读取复用(系统层面)——📚 重复读取的便宜复用

原理:在API调用中,prompt cache让模型只计算变更部分,相同内容重复读取时成本极低。源码中发现的计价:读缓存token仅$0.3/百万token,而普通输入是$3/百万token。

怎么用:这个机制通常是系统自动的,不需要你主动干预。你需要做的只是避免每次都用完全不同的内容。如果一个任务中反复使用相同的上下文(比如同一套README或CLAUDE.md),系统的缓存机制会自动帮你省钱。

十二、结构化复盘接力(跨会话)——🔁 长项目跨会话无缝衔接

原理:大项目需要跨多个对话继续。结束时让Claude做结构化复盘:项目当前目标、已实现部分、未实现部分、关键决策、开发约束。新会话时给Claude喂这个复盘文件,约1分钟内无缝续上工作。

示例(结束时的提示词)

请复盘当前会话:1.项目目标:XXX;2.已实现功能:列出清单;3.待办事项:按优先级排序;4.关键技术决策:记录理由;5.开发约束与偏好。

新会话的提示词

加载复盘文件,从上次结束点继续。开始于:……

效果:避免重复积累上下文,也不用每轮把以前的任务重解释一遍。

十三、外部压缩工具(如TokenPress)——🔧 新任务前的预处理

原理:Prompt的历史信息、描述和项目背景常充斥着低信息量内容——可有可无的修饰词、一堆背景故事、重复度高的文件等。TokenPress用信息论原理压缩原始prompt:每个token按“惊喜度”打分,高信息保留、低信息移除,然后才发给AI。

优势:这是第三方工具,适用于任何模型(包括MiMo-V2.5-Pro等),不依赖Claude Code命令,可以作为预处理步骤在任何LLM任务前插入。

操作(Python示例):

import tokenpress
result = tokenpress.compress("你的长prompt内容...", ratio=0.3)  # 压缩到原始长度的30%
tokenpress compress document.txt -r 0.3 -o compressed.txt

效果:压缩率3.3倍,接近无损质量;可降低2-5倍API成本。

跨模型通用建议

MiMo-V2.5-Pro、DeepSeek-V4-Flash、Qwen3.5-Plus在不同方面各有优势:

  • DeepSeek-V4-Flash推理速度快,在上下文不太长的轻度任务中使用;
  • MiMo-V2.5-Pro/Qwen3.5-Plus成本较低且支撑更多token数,可用于长上下文场景。
    策略:简单编辑/快速探索用低成本模型,复杂架构设计和多文件深层逻辑用MiMo-V2.5-Pro仔细推。

⚠️ 核心原则回顾:AI编程的token消耗中,输入(Input)占70%–90%。优化重点永远是减少输入的内容,而不是纠结输出。
“核心原则:让Claude做的每一步都有明确目的”——结合上述方法(文件过滤直接砍主输入、/clear快速清理历史、按任务拆分减少跨阶段污染、/rewind避免无效分支、/btw隔离闲聊信息),这思路在所有前沿模型中都行之有效。

评论

已显示全部评论