关于节省 Token 的方案,佬友们有什么好的实践吗?
- 内容介绍
- 文章标签
- 相关推荐
目前尝试组合以下几个工具:
- Augment Context Engine (ACE) MCP:语义检索减少全量文件投喂;
- JuliusBrussee/caveman Skills:减少冗余对话;
- rtk-ai/rtk CLI Proxy:过滤终端输出。
体感能省下至少 50% 的 Input Token,输出质量没有明显降低,想请教下还有哪些方案。
网友解答:--【壹】--:
我是让它编排给子agent处理问题,减少主对话上下文
--【贰】--:
oc 的异步 sub agent 远比单 agent 费 token,速度也更慢。
oc 实验性功能有个动态上下文裁剪,但它本身太废 token了。
--【叁】--:
玩酒馆发现它省token的做法是先总结,然后清空当前聊天里的上下文.
--【肆】--:
写代码不行,oc有总结的,一总结,比继续消耗还大。又重新读文件了。。
--【伍】--:
没事去玩玩酒馆,先看它自带的总结和量化插件,再去找其他人的记忆扩展,会发现它们挺超前的..
--【陆】--:
其实trae很早就有这种总结功能了,并不会像你说的又重新读文件,但是随着对话轮数的上升,会牺牲早期的细节那是肯定的,之后出的什么openspec之类的,也就是把总结的结果分阶段存档,存档多了还是无法避免上下文最终会爆满的问题,只不过可以延长很多.
--【柒】--:
我用oc,magic-context 会进行会话裁剪,还有一个是用subagent,把一些重复工作弄个kimi去做。oh-my-xxx也是一样的原理,除此之外,我想不到好办法了
目前尝试组合以下几个工具:
- Augment Context Engine (ACE) MCP:语义检索减少全量文件投喂;
- JuliusBrussee/caveman Skills:减少冗余对话;
- rtk-ai/rtk CLI Proxy:过滤终端输出。
体感能省下至少 50% 的 Input Token,输出质量没有明显降低,想请教下还有哪些方案。
网友解答:--【壹】--:
我是让它编排给子agent处理问题,减少主对话上下文
--【贰】--:
oc 的异步 sub agent 远比单 agent 费 token,速度也更慢。
oc 实验性功能有个动态上下文裁剪,但它本身太废 token了。
--【叁】--:
玩酒馆发现它省token的做法是先总结,然后清空当前聊天里的上下文.
--【肆】--:
写代码不行,oc有总结的,一总结,比继续消耗还大。又重新读文件了。。
--【伍】--:
没事去玩玩酒馆,先看它自带的总结和量化插件,再去找其他人的记忆扩展,会发现它们挺超前的..
--【陆】--:
其实trae很早就有这种总结功能了,并不会像你说的又重新读文件,但是随着对话轮数的上升,会牺牲早期的细节那是肯定的,之后出的什么openspec之类的,也就是把总结的结果分阶段存档,存档多了还是无法避免上下文最终会爆满的问题,只不过可以延长很多.
--【柒】--:
我用oc,magic-context 会进行会话裁剪,还有一个是用subagent,把一些重复工作弄个kimi去做。oh-my-xxx也是一样的原理,除此之外,我想不到好办法了

