对大模型,Agent,Context,和Taalas芯片的深夜看法

在深夜，我突然想起来一个一年半之前很流行的一个玩法Reason

那个应该是Gemini 2.5和R1的时代吧Reason当时有一个非常有名的玩法，
它将两个SOTA模型结合在了一起，造成了一个新的SOTA，怎么造的呢？它将一个模型的思维链强行加在另一个模型上，让另一个模型进行思考后，得出它的instructReason

这样的设计，你认为可以它放在context engine里吗？
如果和题目相扣的话，就是Taalas这个超快的模型输出能不能放在这里？这个方式在当时造出来一个比单模型强得多的效果Reason
假如说我们现在训练一个思维链模型，不输出最终内容，或者说直接用大模型的思维链数据来训练，这样我们就有一个又有启发性、又有技术力、又有寻找力的又小又快又牛逼的思维小模型了Reason

然后呢再由Taalas这样的公司将它刻进芯片里，来达到2万Tokens每秒的输出速度Reason
这个思维其实就是目前的Hybrid的Reason架构Reason然后这里再提出一个点，就是Reason里能塞Reason吗？
我想了一下，这不是claude的隐藏式思维链吗？
因为我在想，Context里可能只有一段Reason的标题，一段Reason的总结，不该有Reason的完整内容，完整内容会非常的占ContextReason
Reason里能塞Reason，这个问题的答案是可以，而且在最终的输出的时候，不会占用那么多的Input的内容，也不会影响ContextReason
当然这个方向有点像sub agents，但是Agents System本来就是一个各种人类组合的结合嘛，如果我们将Taalas的潜力放在这里，它的吞吐量将是无敌了Reason

比如说我们有一个user prompt的问题
我们先让它用那个我们专门训练完的思维链模型来输出一段思维链，可能只用1秒就能输出完思维链，然后转向SOTA模型
SOTA模型来instruct剩下的内容，那么就将这个user prompt到最终输出的结果速度压到了最终的首字速度压到了1秒，这个有多恐怖你知道吗？

也就是我们之后的速度会可能会卡在Tavily和Jina这样的search和fetch的一个结果眼上
从这个角度上来讲，我认为Agents System在几年后是绝对和现在不一样的
可能比ChatGPT出世到现在还要更加的惊艳，因为正反馈的速度上来了
ChatGPT 3.5的时候也是instruct，当时给了我非常大的正反馈
反而是后面各种thinking模型出来之后，提升了质量，但是和正反馈不相关Reason但正反馈出现之后，这个世界上会带来非常非常多的用户，会有一个更大更大的市场，不管是情感向的还是各种搜索向的，这个绝对是一个非常牛逼的方向

而且类似于Google这样的厂商绝对是会投注于这个方向的，它的速度很快
现在Gemini已经集合在Google里了，你去搜索一个内容Reason Gemini会根据你的搜索内容去总结一份报告，之后别人来搜索这个内容的时候也会看到这个报告

虽然在这个方向中，Context是个问题，但是它绝对能加速现在类似OpenClaw这种AIReason质量能不能提升不好说，但是速度绝对是能提升的，一个任务可能直接快10倍也是完全有可能的

我只能说Reason这个就像互联网的3G、4G时代到来了，我们现在可以疯狂地使用token疯狂地使用流量，成本减减减了

那我们的下一步应该就是怎么在大量使用token大量使用并发，但是又不影响Context的情况下，增强thinking强度了
或者说增强Context的精华度
以及Reason并不是用完就丢，而是不怎么在Context的影响下，模型会想到它
这是个Agent的方向Reason而且我觉得不能做RAG这种存向量的打法，纯text都会好得多
这和现在Codebase都不怎么用RAG是一样的道理，文本检索、语义检索会比RAG好得多

那么，我们要将Reason压缩成一个text，也就是前面的隐藏式Reason这个思维链
我的方法很简单，就是未来一个Reason一个思维链可能有1000个Reason角度
但是每一个Reason都是一个并发，它们的速度很快，可以同时进行
以及它们最终的结果都是一个概括，一个text，一个最浓缩最精华的东西

那么第二个问题来了，就是什么时候丢弃，什么时候唤醒
这是一个Agent的方向，是一个未来的方向
可能在现在这个时代还用不到，因为它有点太费token了
至少在Taalas这种芯片还没有真正商业化落地的时候是很难用到的

简单来讲，我们AI要找bug，但是这个bug很难找，要找1000段代码，这里夸张手法一下啊
但是1000段全部塞进来又太复杂了，能不能让小模型先在Code Base里先开启一堆并发
然后总结每一段代码Reason然后大模型再问问题，再找问题Reason
然后把大模型认为没问题的，再交给小模型审查Reason为什么给小模型审查呢？因为小模型的成本实在是太低了Reason
然后丢弃没问题的context，然后把有问题的继续下一轮这样的重复查找，
最后就会查出来那个真正有问题的代码Reason

也正是如此，这才是Agent的未来真正的方向，也是为什么Plerplexity搜索要做快
大家都在追求一个推理速度，这个非常非常重要
因为未来是非常费token的Reason这就和互联网时代是一样的
你有流量没带宽，你有带宽没流量Reason肯定是要选一个了
我是非常看好Taalas的

评论