清凤小栈
← 返回日志
技术 AI

对Taalas团队将llama3刻进芯片的一些看法

或许和别人的看法不太一样

· 清凤 · 970 字 · -- 次阅读

对Taalas团队将llama3刻进芯片的一些看法

以下内容使用Typeless输入,无任何AI内容

前段时间,Taalas 团队将 Llama 3 8B 4bit 刻进芯片,做到了 1.6 万 Token 输出的一个恐怖程度
我看最顶端的那几个 AI 从业者都在说:这个卡真的能装得下 SOTA 级别的大模型吗?

如果要装一个至少 80B 的能用的模型,是不是要串联 12 张?串联 12 张,你又怎么能一起输出呢?那还不如一个大显卡,对吧?

这段时间我在做Agent System

我们从最简单的一个环节——ChatGPT 的 User 体验入手你的默认设置是 Auto,它会自动帮你路由到 Instruct、Thinking 甚至是 Pro 模式

那么我先问一个问题:
你希不希望在输入一个 User Prompt 之后,0.1 秒就看到大模型的输出呢?你肯定希望,对吧?

但是如果你要 0.1 秒就输出,我们这个 Auto Router 该怎么判断呢?
它该如何判断你这一段任务到底是应该 Route 到 Instruct,还是 Route 到 Thinking 呢?

难道是靠简单的语义区分吗?肯定不是

它后面可能是一个专门训练的、用于判断 User Prompt 难度的辅助小模型,或者是接入一个 4B 或 8B 的小模型

那么问题显而易见出现在了这里:

  1. 假设一个用户一天有 100 个输入
  2. 你有 100 万个用户
  3. 那么你一天就有 1 亿个 Route 次数

每次 Route 的输入是完整的,而输出可能只有三四个字符,这会产生大量的小模型推理需求

以及再讲一点,就像是 Perplexity 的 Search 到底是怎么做的?

它为什么能把 Search 和 Router 做得这么快?这个大模型真的能几秒钟看完 20 个网页吗?

关于网页处理,它到底是看了整个网页,还是只看了里面最符合要求的部分?对于大模型来说:

  1. 它调用了一个 Web Search 工具
  2. 下一步要 Webfetch 哪些网页,这个不应该由大模型来决定

因为数据一进一出非常费 Token,而且速度会很慢,很影响用户体验

那么很明显,webfetch 和网页总结都是小模型去做的大模型只给出一个搜索关键词,或者一段比较长的话,然后小模型再去搜索、抓取,并将搜索内容总结成正在搜索的状态给前端用户看

这里就产生了大量的、并发的小模型需求

再一点,AI 时代数据是最重要的,而且数据都要经过清洗,大家也都有各种清洗需求

之前大家可能主要靠算法清洗,因为 LLM 的清洗速度太慢了,只针对小的训练集会很有效但如果有了这样一个成本很低的小模型,就可以:

  1. 进行大量的数据清洗
  2. 进行大量的尝试和试错

这是非常重要的

在这一次新闻中,我发现大部分人都在被一个主要的方向引领,即这个模型到底能不能装进 Sota(至少是一个 80B 的能用的模型),但是忽略了小模型在边缘上的需求也是非常非常大的

这可能也是为什么这些厂商能拿到如此多融资的原因,但在新闻上,却好像没几个人说明出来

或许我们需要站在一个比较新奇的角度去看这个事情。可能大部分人并发现不了这种需求,只有在真正的你去做 agent system 的时候,才会发现这种需求

可能这就是信息差吧

评论