构建了两个月的 Agent 平台[碎碎念,没啥主观]
感觉视角和以前不太一样了
事实上,在这么久之后,我的项目从搭建 base platform,变成了搭建这个 Agent Research。我的推特时间线也变成了以整个 Agent 的方向为主导的内容。
我 reverse 了很多产品,包括 Perplexity,以及我们耳熟能详的 Codex、PI Agent、OpenClaw,还有各种像 BUB 这样的项目。我发现这个领域似乎都是以概念为主导的。也就是说,我做一个开放源代码的项目,我没法同时兼顾一个非常新的理念和非常棒的应用性。
这段时间我看到了很多理念,类似于 All for Hook,也有像 PI Agent 那样的 Only four Tool,也就是 Read / Write / Edit / Bash,还有比较酷的那个 All in One CLI,也只留一个工具。这个工具叫 Run Command,至于我们原来的工具分成为一个 CI 工具。
其实这篇文章没有什么主观性,我只是想描述一下我做了两个月的 Agent 的工程,我到底看到了什么。
和之前作为一个用户去使用这些 Agent 的工具不一样。我知道它画图表,我知道它调用这 grep 工具,背后呢,它是怎么组的,它们的 system prompt 是怎么拼装的,它的工具是怎么样的。
举一个最简单的例子,我 reverse Codex 的 subagent 功能,也就是它的 multiagent,很酷。有很多很不错的设计,前段时间 Claude Code 的那个 BTW 功能上线,在 reverse Codex 这个 subagent 之后,我一下子就理解了这个东西是怎么做的。无非就是开 sub agent,然后使用了 fork context,没有什么可以 reverse,它只不过是调动了原来的工具,然后将这个工具的 max thinking token 啊,还有其他的东西全部给它关掉。也就造就了 BTW 功能,显得非常的简单。
我不知道大家为什么要去 reverse,但可能就是区别在这里,当你 reverse 了这些工具之后,发现 AI 的二产这个 Agent harness 确实是在变得越来越简单了。
今天 Claude 出了一个可以绘制交互性图表的新功能。你知道它有多简单了,但是外界都在吹这个可交互性图表非常的酷。可是你实际上去 reverse 它的时候,我发现非常非常的简单,甚至大部分都是 prompt 工程,它的本质就是纯 HTML 加 SVG 加原生 JavaScript,就是这么简单,大部分都是以 prompt 为形式覆盖的。这个东西我也在之前做 chart 优化的时候遇到了,大部分情况都是在优化 prompt、优化审美,我甚至 leak 出了这个新功能的 prompt,真的很简单。
从古至今,这个古是可能是十年前,可能是几年前,可能是 AI 发生之前,从古至今。这个基础还是没有变化。真的还是没有变化。他还是原来的那个,那一套逻辑。
因为整个 harness 都在往着简单的方向上走。你没有什么可以去优化的地方。或者说我们要分清 harness 和 context engine。也许后者还活着,前者是真的越来越简单了。
context engine 指的是什么?一部分是:在单一 context 中,设计被 KV cache 卡住了。你没法轻易地在一个 context 中删掉其中的一段——比如 subagent 去读了一个文件,之后的过程中不再需要这个文件了,希望将它智能删除,但不是做不到,是成本,KV cache 卡住了这一点。类似于 sub agent、agents team,防止上下文污染是另一个方向——leader 不写代码,只作为 leader,可以完美防止上下文污染。这个理念容易抄,但这才是 context engine 本质中的一部分。KV cache 这个限制,我认为在几年内是去不掉的。
一个 agent based platform,就还是原来的那一套优化性能、优化并发、优化 UI 的差,玩具上的项目会被抛弃。所以大家一般只在大厂的产品和一些开源项目的理念,但很少有人会去用开源项目。这个可能就是未来的发展方向了。
他不是说这个 platform 会变得简单,而是说它会和原来一模一样。护城河会越来越存在,后发的厂商会越来越难追。直到现在,我的项目二十多万行,也只是现在一点点功能,因为我要以一个非玩具的角度去看待它。
另外再讲一点,AI 一点都不聪明,但是对世界的改变确实是极端性的。但是,还是那句话,不会太聪明,不会太聪明。其实没必要过度焦虑,我认为。
哦,还有一点我想说的就是,从目前的角度来看,模型的能力基本上大于 prompt 增强。同一个 prompt 你再怎么做,让一个 OSS 120B 做,它就是比不上 Opus 4.6。
另外再讲一个,就是小模型,我认为是有价值的,唯一的缺点就是,小模型各种地方调用的模型不一样,会让这个平台的复杂性增加,不太适合 open source。对于 SaaS 来说是不错的了。嗯,有点类似前段时间那个 Taalas,我认为他的方向是挺正确的。