对Taalas团队将llama3刻进芯片的一些看法

前段时间，Taalas 团队将 Llama 3 8B 4bit 刻进芯片，做到了 1.6 万 Token 输出的一个恐怖程度
我看最顶端的那几个 AI 从业者都在说：这个卡真的能装得下 SOTA 级别的大模型吗？

如果要装一个至少 80B 的能用的模型，是不是要串联 12 张？串联 12 张，你又怎么能一起输出呢？那还不如一个大显卡，对吧？

这段时间我在做Agent System

我们从最简单的一个环节——ChatGPT 的 User 体验入手你的默认设置是 Auto，它会自动帮你路由到 Instruct、Thinking 甚至是 Pro 模式

那么我先问一个问题：
你希不希望在输入一个 User Prompt 之后，0.1 秒就看到大模型的输出呢？你肯定希望，对吧？

但是如果你要 0.1 秒就输出，我们这个 Auto Router 该怎么判断呢？
它该如何判断你这一段任务到底是应该 Route 到 Instruct，还是 Route 到 Thinking 呢？

难道是靠简单的语义区分吗？肯定不是

它后面可能是一个专门训练的、用于判断 User Prompt 难度的辅助小模型，或者是接入一个 4B 或 8B 的小模型

那么问题显而易见出现在了这里：

每次 Route 的输入是完整的，而输出可能只有三四个字符，这会产生大量的小模型推理需求

以及再讲一点，就像是 Perplexity 的 Search 到底是怎么做的？

它为什么能把 Search 和 Router 做得这么快？这个大模型真的能几秒钟看完 20 个网页吗？

关于网页处理，它到底是看了整个网页，还是只看了里面最符合要求的部分？对于大模型来说：

因为数据一进一出非常费 Token，而且速度会很慢，很影响用户体验

那么很明显，webfetch 和网页总结都是小模型去做的大模型只给出一个搜索关键词，或者一段比较长的话，然后小模型再去搜索、抓取，并将搜索内容总结成正在搜索的状态给前端用户看

这里就产生了大量的、并发的小模型需求

再一点，AI 时代数据是最重要的，而且数据都要经过清洗，大家也都有各种清洗需求

之前大家可能主要靠算法清洗，因为 LLM 的清洗速度太慢了，只针对小的训练集会很有效但如果有了这样一个成本很低的小模型，就可以：

这是非常重要的

在这一次新闻中，我发现大部分人都在被一个主要的方向引领，即这个模型到底能不能装进 Sota（至少是一个 80B 的能用的模型），但是忽略了小模型在边缘上的需求也是非常非常大的

这可能也是为什么这些厂商能拿到如此多融资的原因，但在新闻上，却好像没几个人说明出来

或许我们需要站在一个比较新奇的角度去看这个事情。可能大部分人并发现不了这种需求，只有在真正的你去做 agent system 的时候，才会发现这种需求

可能这就是信息差吧

评论