关于节省 Token 的方案,佬友们有什么好的实践吗?

2026-04-17 15:146阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

目前尝试组合以下几个工具:

  1. Augment Context Engine (ACE) MCP:语义检索减少全量文件投喂;
  2. JuliusBrussee/caveman Skills:减少冗余对话;
  3. rtk-ai/rtk CLI Proxy:过滤终端输出。

体感能省下至少 50% 的 Input Token,输出质量没有明显降低,想请教下还有哪些方案。

网友解答:
--【壹】--:

我是让它编排给子agent处理问题,减少主对话上下文


--【贰】--:

oc 的异步 sub agent 远比单 agent 费 token,速度也更慢。

oc 实验性功能有个动态上下文裁剪,但它本身太废 token了。


--【叁】--:

玩酒馆发现它省token的做法是先总结,然后清空当前聊天里的上下文.


--【肆】--:

写代码不行,oc有总结的,一总结,比继续消耗还大。又重新读文件了。。


--【伍】--:

没事去玩玩酒馆,先看它自带的总结和量化插件,再去找其他人的记忆扩展,会发现它们挺超前的..


--【陆】--:

其实trae很早就有这种总结功能了,并不会像你说的又重新读文件,但是随着对话轮数的上升,会牺牲早期的细节那是肯定的,之后出的什么openspec之类的,也就是把总结的结果分阶段存档,存档多了还是无法避免上下文最终会爆满的问题,只不过可以延长很多.


--【柒】--:

我用oc,magic-context 会进行会话裁剪,还有一个是用subagent,把一些重复工作弄个kimi去做。oh-my-xxx也是一样的原理,除此之外,我想不到好办法了

问题描述:

目前尝试组合以下几个工具:

  1. Augment Context Engine (ACE) MCP:语义检索减少全量文件投喂;
  2. JuliusBrussee/caveman Skills:减少冗余对话;
  3. rtk-ai/rtk CLI Proxy:过滤终端输出。

体感能省下至少 50% 的 Input Token,输出质量没有明显降低,想请教下还有哪些方案。

网友解答:
--【壹】--:

我是让它编排给子agent处理问题,减少主对话上下文


--【贰】--:

oc 的异步 sub agent 远比单 agent 费 token,速度也更慢。

oc 实验性功能有个动态上下文裁剪,但它本身太废 token了。


--【叁】--:

玩酒馆发现它省token的做法是先总结,然后清空当前聊天里的上下文.


--【肆】--:

写代码不行,oc有总结的,一总结,比继续消耗还大。又重新读文件了。。


--【伍】--:

没事去玩玩酒馆,先看它自带的总结和量化插件,再去找其他人的记忆扩展,会发现它们挺超前的..


--【陆】--:

其实trae很早就有这种总结功能了,并不会像你说的又重新读文件,但是随着对话轮数的上升,会牺牲早期的细节那是肯定的,之后出的什么openspec之类的,也就是把总结的结果分阶段存档,存档多了还是无法避免上下文最终会爆满的问题,只不过可以延长很多.


--【柒】--:

我用oc,magic-context 会进行会话裁剪,还有一个是用subagent,把一些重复工作弄个kimi去做。oh-my-xxx也是一样的原理,除此之外,我想不到好办法了