清凤小栈
← 返回日志
技术 AI

对大模型,Agent,Context,和Taalas芯片的深夜看法

深夜突然冒出来好多灵感

· 清凤 · 1,628 字 · -- 次阅读

在深夜,我突然想起来一个一年半之前很流行的一个玩法Reason

那个应该是Gemini 2.5和R1的时代吧Reason当时有一个非常有名的玩法,
它将两个SOTA模型结合在了一起,造成了一个新的SOTA,怎么造的呢?它将一个模型的思维链强行加在另一个模型上,让另一个模型进行思考后,得出它的instructReason

这样的设计,你认为可以它放在context engine里吗?
如果和题目相扣的话,就是Taalas这个超快的模型输出能不能放在这里?这个方式在当时造出来一个比单模型强得多的效果Reason
假如说我们现在训练一个思维链模型,不输出最终内容,或者说直接用大模型的思维链数据来训练,这样我们就有一个又有启发性、又有技术力、又有寻找力的又小又快又牛逼的思维小模型了Reason

然后呢再由Taalas这样的公司将它刻进芯片里,来达到2万Tokens每秒的输出速度Reason
这个思维其实就是目前的Hybrid的Reason架构Reason然后这里再提出一个点,就是Reason里能塞Reason吗?
我想了一下,这不是claude的隐藏式思维链吗?
因为我在想,Context里可能只有一段Reason的标题,一段Reason的总结,不该有Reason的完整内容,完整内容会非常的占ContextReason
Reason里能塞Reason,这个问题的答案是可以,而且在最终的输出的时候,不会占用那么多的Input的内容,也不会影响ContextReason
当然这个方向有点像sub agents,但是Agents System本来就是一个各种人类组合的结合嘛,如果我们将Taalas的潜力放在这里,它的吞吐量将是无敌了Reason

比如说我们有一个user prompt的问题
我们先让它用那个我们专门训练完的思维链模型来输出一段思维链,可能只用1秒就能输出完思维链,然后转向SOTA模型
SOTA模型来instruct剩下的内容,那么就将这个user prompt到最终输出的结果速度压到了最终的首字速度压到了1秒,这个有多恐怖你知道吗?

也就是我们之后的速度会可能会卡在Tavily和Jina这样的search和fetch的一个结果眼上
从这个角度上来讲,我认为Agents System在几年后是绝对和现在不一样的
可能比ChatGPT出世到现在还要更加的惊艳,因为正反馈的速度上来了
ChatGPT 3.5的时候也是instruct,当时给了我非常大的正反馈
反而是后面各种thinking模型出来之后,提升了质量,但是和正反馈不相关Reason但正反馈出现之后,这个世界上会带来非常非常多的用户,会有一个更大更大的市场,不管是情感向的还是各种搜索向的,这个绝对是一个非常牛逼的方向

而且类似于Google这样的厂商绝对是会投注于这个方向的,它的速度很快
现在Gemini已经集合在Google里了,你去搜索一个内容Reason Gemini会根据你的搜索内容去总结一份报告,之后别人来搜索这个内容的时候也会看到这个报告

虽然在这个方向中,Context是个问题,但是它绝对能加速现在类似OpenClaw这种AIReason质量能不能提升不好说,但是速度绝对是能提升的,一个任务可能直接快10倍也是完全有可能的

我只能说Reason这个就像互联网的3G、4G时代到来了,我们现在可以疯狂地使用token疯狂地使用流量,成本减减减了

那我们的下一步应该就是怎么在大量使用token大量使用并发,但是又不影响Context的情况下,增强thinking强度了
或者说增强Context的精华度
以及Reason并不是用完就丢,而是不怎么在Context的影响下,模型会想到它
这是个Agent的方向Reason而且我觉得不能做RAG这种存向量的打法,纯text都会好得多
这和现在Codebase都不怎么用RAG是一样的道理,文本检索、语义检索会比RAG好得多

那么,我们要将Reason压缩成一个text,也就是前面的隐藏式Reason这个思维链
我的方法很简单,就是未来一个Reason一个思维链可能有1000个Reason角度
但是每一个Reason都是一个并发,它们的速度很快,可以同时进行
以及它们最终的结果都是一个概括,一个text,一个最浓缩最精华的东西

那么第二个问题来了,就是什么时候丢弃,什么时候唤醒
这是一个Agent的方向,是一个未来的方向
可能在现在这个时代还用不到,因为它有点太费token了
至少在Taalas这种芯片还没有真正商业化落地的时候是很难用到的

简单来讲,我们AI要找bug,但是这个bug很难找,要找1000段代码,这里夸张手法一下啊
但是1000段全部塞进来又太复杂了,能不能让小模型先在Code Base里先开启一堆并发
然后总结每一段代码Reason然后大模型再问问题,再找问题Reason
然后把大模型认为没问题的,再交给小模型审查Reason为什么给小模型审查呢?因为小模型的成本实在是太低了Reason
然后丢弃没问题的context,然后把有问题的继续下一轮这样的重复查找,
最后就会查出来那个真正有问题的代码Reason

也正是如此,这才是Agent的未来真正的方向,也是为什么Plerplexity搜索要做快
大家都在追求一个推理速度,这个非常非常重要
因为未来是非常费token的Reason这就和互联网时代是一样的
你有流量没带宽,你有带宽没流量Reason肯定是要选一个了
我是非常看好Taalas的

评论