GPT-4.5 模型到底有多大?
一次简单的实验分析与猜测
用 IKP 探针估算 GPT-4.5 的规模:一次非正式实验
摘要
我们用 IKP(Incompressible Knowledge Probes)方法的一个缩减版本,手动对 GPT-4.5 进行了 320 道闭卷事实回忆测试,试图回答一个问题:GPT-4.5 的事实记忆容量大概处于什么量级?
最终结论:GPT-4.5 的 IKP 等效事实容量约为 1.3T–1.8T。结合其定价(输入 $75/M tokens,输出 $150/M tokens,约为 GPT-4o 的 15–30 倍)和生成速度,我们推测其架构更可能是一个 大 active 的 MoE 模型(总参数 1T–3T,活跃参数 200B–600B),而非超稀疏 MoE 或纯 dense 架构。
重要声明:这不是正式的 IKP 基准评估。样本为事后构建(posthoc),分布偏向长尾,无法等同于论文级结论。所有数字应理解为”等效事实容量”,而非真实物理参数量。
1. 动机:为什么要测 GPT-4.5
GPT-4.5 是一个气质独特的模型。它在推理、编程、Agent 任务上并不突出,但在写作质量上异常出色——文学感、语气自然度、情绪细节的处理都显示出极厚的语言建模底座,而不是靠后训练和路由拼凑出来的效果。
OpenAI 在发布时也明确称其为”largest and best model for chat yet”,并表示它”very large and compute-intensive”,定价远高于 GPT-4o。
这些信号指向同一个猜测:GPT-4.5 可能是一个语言建模优先、active 参数很大的上一代巨型模型。
IKP 提供了一个可以量化验证这个猜测的切入点。
2. IKP 方法简介
IKP(Incompressible Knowledge Probes)测试的是模型的参数化事实记忆,而非推理能力。它通过大量闭卷事实题——尤其是难以通过推理猜出的长尾事实——来衡量模型”记住了多少世界知识”。
原始 IKP 基准包含 1,400 道题,分为 7 个晦涩度层级(T1 为常识,T7 为极端长尾),每层 200 题。其核心发现是:在 89 个已知参数量的开源模型上,IKP 准确率与 log 参数量呈强线性关系(R² = 0.917)。
IKP 不测推理、代码、Agent 或文学能力。它只回答一个问题:这个模型的事实记忆容量大约处于哪个量级。
3. 实验条件
由于 GPT-4.5 没有开放的 API,所有测试均通过 ChatGPT Web 界面手动完成:
- 每批约 10 题,逐批复制粘贴
- 使用闭卷 prompt,明确禁止搜索和工具调用
- 输出格式为 JSONL,本地自动评分
- 无浏览器自动化,无请求抓包
Prompt 中有一条关键细节:必须明确告知模型”如果有具体记忆,答出正确子领域加任一论文/系统/机构/合作者即可”。否则 GPT-4.5 会进入过度保守模式,对所有不确定的研究者类题目一律返回 null。
4. 三次失败的尝试
4.1 仅长尾 140 题:严重低估
第一次尝试只选了 T5–T7 共 140 题。结果看起来很差,但这不是 mini-IKP——它只覆盖了最难的层级,缺少 T1–T4 的基线分数,无法代表整体能力。
教训:长尾子集不能用来估参。
4.2 启发式评分:误杀严重
第二次用均衡的 T1–T7 各 20 题(共 140 题),但采用了字符串匹配式的启发式评分。结果为 350B——严重偏低。
原因在于 T5–T7 中大量研究者类题目(“某人的研究子领域是什么,举一篇论文或合作者”),模型可能给出了正确答案但与参考答案措辞不同,被启发式评分误判为错误。
教训:研究者类题目必须使用语义评分,字符串匹配不可靠。
4.3 均衡 140 题语义评分:过度高估
同一批 140 题换用 Gemini 语义评分后,结果跳到 5.7T。原因是样本量太小——T6/T7 每层仅 20 题,几道题的偶然正确就能大幅拉高估计值。
后续扩充样本后,这个数字迅速回落。
教训:140 题的置信度不足以支撑高分段的估计。
5. 最终结果:320 题正式评分
5.1 样本说明
最终整理出 320 题,使用 OpenRouter 语义评分。分布如下:
| 层级 | 题数 |
|---|---|
| T1–T4 | 各 20 |
| T5 | 80 |
| T6 | 90 |
| T7 | 70 |
由于长尾偏重,主分数取各层等权平均而非简单汇总。
此样本为事后构建(posthoc),采样脚本、随机种子、是否存在数据泄露均不可审计,因此不构成 canonical IKP 评估。
5.2 分层表现
| 层级 | 准确率 | 强正确 | 弱正确 | 错误 | 拒答 |
|---|---|---|---|---|---|
| T1 | 100% | 20 | 0 | 0 | 0 |
| T2 | 100% | 20 | 0 | 0 | 0 |
| T3 | 88% | 17 | 1 | 0 | 2 |
| T4 | 88% | 17 | 1 | 0 | 2 |
| T5 | 34% | 28 | 9 | 5 | 38 |
| T6 | 19% | 24 | 3 | 8 | 55 |
| T7 | 0% | 4 | 4 | 15 | 47 |
这张表勾勒出 GPT-4.5 的事实记忆轮廓:
- T1–T4 极稳,这不是小模型能做到的
- T5 仍有可观的知识储备,但拒答率已经很高
- T6–T7 快速衰减,尤其在研究者元数据类题目上
5.3 汇总分数与估计值
| 口径 | 准确率 | IKP 等效参数量 |
|---|---|---|
| 惩罚制等权(floored) | 61.26% | ~1.82T |
| 惩罚制等权(unfloored) | 59.42% | ~1.37T |
| 后分层(floored) | 61.08% | ~1.77T |
| 后分层(unfloored) | 59.24% | ~1.33T |
综合区间:约 1.3T–1.8T 等效事实容量。
5.4 研究者类题目的特殊表现
320 题中包含 109 道研究者类题目(问某位 CS 研究者的子领域及佐证),结果值得单独说明:
- 强正确仅 9 道(8.3%)
- 拒答 75 道(68.8%)
- 错误仅 7 道(6.4%)
GPT-4.5 对这类题目的策略是大量拒答而非胡编。这不说明它”不懂 CS”,而是说它对冷门研究者的元数据记忆薄弱,且校准倾向保守。这也解释了为什么样本中研究者题目占比的变化会显著影响总分。
6. 外部证据:定价与速度
定价
| 模型 | 输入价格 | 输出价格 |
|---|---|---|
| GPT-4.5 | $75/M tokens | $150/M tokens |
| GPT-4o | ~$2.5/M tokens | ~$10/M tokens |
差距约 15–30 倍。这个定价不像一个小 active MoE 的特征。
速度
早期第三方数据显示 GPT-4.5 约 37 tokens/s,而 GPT-4o 约 111.5 tokens/s(Artificial Analysis 测速)。表面比值约 3 倍,但考虑到 OpenAI 在发布期可能为 GPT-4.5 投入了更多 serving 资源,实际算力差距可能在 5–10 倍。
这两项证据共同指向:GPT-4.5 的 active 参数量远大于 GPT-4o,但也不至于是多 T 级 dense 模型(否则交互式服务几乎不可行)。
7. 架构推断
综合 IKP 表现、定价、速度和写作质感,最合理的解释是:
| 假设 | 是否兼容证据 |
|---|---|
| 小模型(GPT-4o 级别) | ❌ T1–T4 表现和定价不支持 |
| 5T+ dense | ❌ 服务成本不现实,T6/T7 表现也不够强 |
| 50B active 超稀疏 MoE | ❌ 写作质感和定价不支持 |
| 1T–3T 总参、200B–600B active 的大 active MoE | ✅ 全部证据兼容 |
中心估计:总参数约 1.5T–2T,活跃参数约 300B–500B。
8. GPT-4.5 在当前模型谱系中的位置
GPT-4.5 不应被视为新一代 reasoning-first 模型。它更像是上一个时代的产物:
- 高于 GPT-4o
- 接近 GPT-4.1 / Gemini 2.5 Pro / Claude Opus 一带
- 低于 GPT-5,明显低于 GPT-5.5
它的核心特征是语言建模极厚——每个 token 都经过了大量参数的加工——而非依靠推理链或工具调用来获取能力。这解释了它的矛盾感:写作惊艳,但推理平平;知识丰富,但深尾不足;存在感强,但不是前沿。
9. 局限性
- 样本为事后构建,非 canonical IKP 评估
- 未做子集专属校准
- 采样脚本和随机种子不可审计
- 320 题远少于标准 1,400 题
- 长尾分布偏重,对汇总方式敏感
- IKP 高分段估计本身就对评分口径和题目质量非常敏感
如需更可靠的结论,应从零构建一个 canonical holdout 样本(每层 50 题,共 350 题),并在运行前锁定所有实验参数。
10. 结论
GPT-4.5 在一个 320 题的非正式 IKP 测试中,表现出约 1.3T–1.8T 的等效事实容量。结合定价和速度证据,其架构最可能是 总参数 1T–3T、活跃参数数百 B 的大 active MoE。
它不是小模型,不是超稀疏 MoE,也不是多 T dense。它是一个语言建模极厚、成本极高、写作能力突出但不属于新一代推理范式的巨型模型。