清凤小栈
← 返回日志
技术 AI

GPT-4.5 模型到底有多大?

一次简单的实验分析与猜测

· 清凤 · 2,236 字 · -- 次阅读

用 IKP 探针估算 GPT-4.5 的规模:一次非正式实验

摘要

我们用 IKP(Incompressible Knowledge Probes)方法的一个缩减版本,手动对 GPT-4.5 进行了 320 道闭卷事实回忆测试,试图回答一个问题:GPT-4.5 的事实记忆容量大概处于什么量级?

最终结论:GPT-4.5 的 IKP 等效事实容量约为 1.3T–1.8T。结合其定价(输入 $75/M tokens,输出 $150/M tokens,约为 GPT-4o 的 15–30 倍)和生成速度,我们推测其架构更可能是一个 大 active 的 MoE 模型(总参数 1T–3T,活跃参数 200B–600B),而非超稀疏 MoE 或纯 dense 架构。

重要声明:这不是正式的 IKP 基准评估。样本为事后构建(posthoc),分布偏向长尾,无法等同于论文级结论。所有数字应理解为”等效事实容量”,而非真实物理参数量。


1. 动机:为什么要测 GPT-4.5

GPT-4.5 是一个气质独特的模型。它在推理、编程、Agent 任务上并不突出,但在写作质量上异常出色——文学感、语气自然度、情绪细节的处理都显示出极厚的语言建模底座,而不是靠后训练和路由拼凑出来的效果。

OpenAI 在发布时也明确称其为”largest and best model for chat yet”,并表示它”very large and compute-intensive”,定价远高于 GPT-4o。

这些信号指向同一个猜测:GPT-4.5 可能是一个语言建模优先、active 参数很大的上一代巨型模型。

IKP 提供了一个可以量化验证这个猜测的切入点。


2. IKP 方法简介

IKP(Incompressible Knowledge Probes)测试的是模型的参数化事实记忆,而非推理能力。它通过大量闭卷事实题——尤其是难以通过推理猜出的长尾事实——来衡量模型”记住了多少世界知识”。

原始 IKP 基准包含 1,400 道题,分为 7 个晦涩度层级(T1 为常识,T7 为极端长尾),每层 200 题。其核心发现是:在 89 个已知参数量的开源模型上,IKP 准确率与 log 参数量呈强线性关系(R² = 0.917)。

IKP 不测推理、代码、Agent 或文学能力。它只回答一个问题:这个模型的事实记忆容量大约处于哪个量级。


3. 实验条件

由于 GPT-4.5 没有开放的 API,所有测试均通过 ChatGPT Web 界面手动完成:

  • 每批约 10 题,逐批复制粘贴
  • 使用闭卷 prompt,明确禁止搜索和工具调用
  • 输出格式为 JSONL,本地自动评分
  • 无浏览器自动化,无请求抓包

Prompt 中有一条关键细节:必须明确告知模型”如果有具体记忆,答出正确子领域加任一论文/系统/机构/合作者即可”。否则 GPT-4.5 会进入过度保守模式,对所有不确定的研究者类题目一律返回 null。


4. 三次失败的尝试

4.1 仅长尾 140 题:严重低估

第一次尝试只选了 T5–T7 共 140 题。结果看起来很差,但这不是 mini-IKP——它只覆盖了最难的层级,缺少 T1–T4 的基线分数,无法代表整体能力。

教训:长尾子集不能用来估参。

4.2 启发式评分:误杀严重

第二次用均衡的 T1–T7 各 20 题(共 140 题),但采用了字符串匹配式的启发式评分。结果为 350B——严重偏低。

原因在于 T5–T7 中大量研究者类题目(“某人的研究子领域是什么,举一篇论文或合作者”),模型可能给出了正确答案但与参考答案措辞不同,被启发式评分误判为错误。

教训:研究者类题目必须使用语义评分,字符串匹配不可靠。

4.3 均衡 140 题语义评分:过度高估

同一批 140 题换用 Gemini 语义评分后,结果跳到 5.7T。原因是样本量太小——T6/T7 每层仅 20 题,几道题的偶然正确就能大幅拉高估计值。

后续扩充样本后,这个数字迅速回落。

教训:140 题的置信度不足以支撑高分段的估计。


5. 最终结果:320 题正式评分

5.1 样本说明

最终整理出 320 题,使用 OpenRouter 语义评分。分布如下:

层级题数
T1–T4各 20
T580
T690
T770

由于长尾偏重,主分数取各层等权平均而非简单汇总。

此样本为事后构建(posthoc),采样脚本、随机种子、是否存在数据泄露均不可审计,因此不构成 canonical IKP 评估

5.2 分层表现

层级准确率强正确弱正确错误拒答
T1100%20000
T2100%20000
T388%17102
T488%17102
T534%289538
T619%243855
T70%441547

这张表勾勒出 GPT-4.5 的事实记忆轮廓:

  • T1–T4 极稳,这不是小模型能做到的
  • T5 仍有可观的知识储备,但拒答率已经很高
  • T6–T7 快速衰减,尤其在研究者元数据类题目上

5.3 汇总分数与估计值

口径准确率IKP 等效参数量
惩罚制等权(floored)61.26%~1.82T
惩罚制等权(unfloored)59.42%~1.37T
后分层(floored)61.08%~1.77T
后分层(unfloored)59.24%~1.33T

综合区间:约 1.3T–1.8T 等效事实容量。

5.4 研究者类题目的特殊表现

320 题中包含 109 道研究者类题目(问某位 CS 研究者的子领域及佐证),结果值得单独说明:

  • 强正确仅 9 道(8.3%)
  • 拒答 75 道(68.8%)
  • 错误仅 7 道(6.4%)

GPT-4.5 对这类题目的策略是大量拒答而非胡编。这不说明它”不懂 CS”,而是说它对冷门研究者的元数据记忆薄弱,且校准倾向保守。这也解释了为什么样本中研究者题目占比的变化会显著影响总分。


6. 外部证据:定价与速度

定价

模型输入价格输出价格
GPT-4.5$75/M tokens$150/M tokens
GPT-4o~$2.5/M tokens~$10/M tokens

差距约 15–30 倍。这个定价不像一个小 active MoE 的特征。

速度

早期第三方数据显示 GPT-4.5 约 37 tokens/s,而 GPT-4o 约 111.5 tokens/s(Artificial Analysis 测速)。表面比值约 3 倍,但考虑到 OpenAI 在发布期可能为 GPT-4.5 投入了更多 serving 资源,实际算力差距可能在 5–10 倍。

这两项证据共同指向:GPT-4.5 的 active 参数量远大于 GPT-4o,但也不至于是多 T 级 dense 模型(否则交互式服务几乎不可行)。


7. 架构推断

综合 IKP 表现、定价、速度和写作质感,最合理的解释是:

假设是否兼容证据
小模型(GPT-4o 级别)❌ T1–T4 表现和定价不支持
5T+ dense❌ 服务成本不现实,T6/T7 表现也不够强
50B active 超稀疏 MoE❌ 写作质感和定价不支持
1T–3T 总参、200B–600B active 的大 active MoE✅ 全部证据兼容

中心估计:总参数约 1.5T–2T,活跃参数约 300B–500B。


8. GPT-4.5 在当前模型谱系中的位置

GPT-4.5 不应被视为新一代 reasoning-first 模型。它更像是上一个时代的产物:

  • 高于 GPT-4o
  • 接近 GPT-4.1 / Gemini 2.5 Pro / Claude Opus 一带
  • 低于 GPT-5,明显低于 GPT-5.5

它的核心特征是语言建模极厚——每个 token 都经过了大量参数的加工——而非依靠推理链或工具调用来获取能力。这解释了它的矛盾感:写作惊艳,但推理平平;知识丰富,但深尾不足;存在感强,但不是前沿。


9. 局限性

  • 样本为事后构建,非 canonical IKP 评估
  • 未做子集专属校准
  • 采样脚本和随机种子不可审计
  • 320 题远少于标准 1,400 题
  • 长尾分布偏重,对汇总方式敏感
  • IKP 高分段估计本身就对评分口径和题目质量非常敏感

如需更可靠的结论,应从零构建一个 canonical holdout 样本(每层 50 题,共 350 题),并在运行前锁定所有实验参数。


10. 结论

GPT-4.5 在一个 320 题的非正式 IKP 测试中,表现出约 1.3T–1.8T 的等效事实容量。结合定价和速度证据,其架构最可能是 总参数 1T–3T、活跃参数数百 B 的大 active MoE

它不是小模型,不是超稀疏 MoE,也不是多 T dense。它是一个语言建模极厚、成本极高、写作能力突出但不属于新一代推理范式的巨型模型。

评论