用 IKP 探针估算 GPT-4.5 的规模：一次非正式实验

摘要

我们用 IKP（Incompressible Knowledge Probes）方法的一个缩减版本，手动对 GPT-4.5 进行了 320 道闭卷事实回忆测试，试图回答一个问题：GPT-4.5 的事实记忆容量大概处于什么量级？

最终结论：GPT-4.5 的 IKP 等效事实容量约为 1.3T–1.8T。结合其定价（输入 $75/M tokens，输出 $150/M tokens，约为 GPT-4o 的 15–30 倍）和生成速度，我们推测其架构更可能是一个 大 active 的 MoE 模型（总参数 1T–3T，活跃参数 200B–600B），而非超稀疏 MoE 或纯 dense 架构。

重要声明：这不是正式的 IKP 基准评估。样本为事后构建（posthoc），分布偏向长尾，无法等同于论文级结论。所有数字应理解为”等效事实容量”，而非真实物理参数量。

1. 动机：为什么要测 GPT-4.5

GPT-4.5 是一个气质独特的模型。它在推理、编程、Agent 任务上并不突出，但在写作质量上异常出色——文学感、语气自然度、情绪细节的处理都显示出极厚的语言建模底座，而不是靠后训练和路由拼凑出来的效果。

OpenAI 在发布时也明确称其为”largest and best model for chat yet”，并表示它”very large and compute-intensive”，定价远高于 GPT-4o。

这些信号指向同一个猜测：GPT-4.5 可能是一个语言建模优先、active 参数很大的上一代巨型模型。

IKP 提供了一个可以量化验证这个猜测的切入点。

2. IKP 方法简介

IKP（Incompressible Knowledge Probes）测试的是模型的参数化事实记忆，而非推理能力。它通过大量闭卷事实题——尤其是难以通过推理猜出的长尾事实——来衡量模型”记住了多少世界知识”。

原始 IKP 基准包含 1,400 道题，分为 7 个晦涩度层级（T1 为常识，T7 为极端长尾），每层 200 题。其核心发现是：在 89 个已知参数量的开源模型上，IKP 准确率与 log 参数量呈强线性关系（R² = 0.917）。

IKP 不测推理、代码、Agent 或文学能力。它只回答一个问题：这个模型的事实记忆容量大约处于哪个量级。

3. 实验条件

由于 GPT-4.5 没有开放的 API，所有测试均通过 ChatGPT Web 界面手动完成：

每批约 10 题，逐批复制粘贴
使用闭卷 prompt，明确禁止搜索和工具调用
输出格式为 JSONL，本地自动评分
无浏览器自动化，无请求抓包

Prompt 中有一条关键细节：必须明确告知模型”如果有具体记忆，答出正确子领域加任一论文/系统/机构/合作者即可”。否则 GPT-4.5 会进入过度保守模式，对所有不确定的研究者类题目一律返回 null。

4. 三次失败的尝试

4.1 仅长尾 140 题：严重低估

第一次尝试只选了 T5–T7 共 140 题。结果看起来很差，但这不是 mini-IKP——它只覆盖了最难的层级，缺少 T1–T4 的基线分数，无法代表整体能力。

教训：长尾子集不能用来估参。

4.2 启发式评分：误杀严重

第二次用均衡的 T1–T7 各 20 题（共 140 题），但采用了字符串匹配式的启发式评分。结果为 350B——严重偏低。

原因在于 T5–T7 中大量研究者类题目（“某人的研究子领域是什么，举一篇论文或合作者”），模型可能给出了正确答案但与参考答案措辞不同，被启发式评分误判为错误。

教训：研究者类题目必须使用语义评分，字符串匹配不可靠。

4.3 均衡 140 题语义评分：过度高估

同一批 140 题换用 Gemini 语义评分后，结果跳到 5.7T。原因是样本量太小——T6/T7 每层仅 20 题，几道题的偶然正确就能大幅拉高估计值。

后续扩充样本后，这个数字迅速回落。

教训：140 题的置信度不足以支撑高分段的估计。

5. 最终结果：320 题正式评分

5.1 样本说明

最终整理出 320 题，使用 OpenRouter 语义评分。分布如下：

层级	题数
T1–T4	各 20
T5	80
T6	90
T7	70

由于长尾偏重，主分数取各层等权平均而非简单汇总。

此样本为事后构建（posthoc），采样脚本、随机种子、是否存在数据泄露均不可审计，因此不构成 canonical IKP 评估。

5.2 分层表现

层级	准确率	强正确	弱正确	错误	拒答
T1	100%	20	0	0	0
T2	100%	20	0	0	0
T3	88%	17	1	0	2
T4	88%	17	1	0	2
T5	34%	28	9	5	38
T6	19%	24	3	8	55
T7	0%	4	4	15	47

这张表勾勒出 GPT-4.5 的事实记忆轮廓：

T1–T4 极稳，这不是小模型能做到的
T5 仍有可观的知识储备，但拒答率已经很高
T6–T7 快速衰减，尤其在研究者元数据类题目上

5.3 汇总分数与估计值

口径	准确率	IKP 等效参数量
惩罚制等权（floored）	61.26%	~1.82T
惩罚制等权（unfloored）	59.42%	~1.37T
后分层（floored）	61.08%	~1.77T
后分层（unfloored）	59.24%	~1.33T

综合区间：约 1.3T–1.8T 等效事实容量。

5.4 研究者类题目的特殊表现

320 题中包含 109 道研究者类题目（问某位 CS 研究者的子领域及佐证），结果值得单独说明：

强正确仅 9 道（8.3%）
拒答 75 道（68.8%）
错误仅 7 道（6.4%）

GPT-4.5 对这类题目的策略是大量拒答而非胡编。这不说明它”不懂 CS”，而是说它对冷门研究者的元数据记忆薄弱，且校准倾向保守。这也解释了为什么样本中研究者题目占比的变化会显著影响总分。

6. 外部证据：定价与速度

定价

模型	输入价格	输出价格
GPT-4.5	$75/M tokens	$150/M tokens
GPT-4o	~$2.5/M tokens	~$10/M tokens

差距约 15–30 倍。这个定价不像一个小 active MoE 的特征。

速度

早期第三方数据显示 GPT-4.5 约 37 tokens/s，而 GPT-4o 约 111.5 tokens/s（Artificial Analysis 测速）。表面比值约 3 倍，但考虑到 OpenAI 在发布期可能为 GPT-4.5 投入了更多 serving 资源，实际算力差距可能在 5–10 倍。

这两项证据共同指向：GPT-4.5 的 active 参数量远大于 GPT-4o，但也不至于是多 T 级 dense 模型（否则交互式服务几乎不可行）。

7. 架构推断

综合 IKP 表现、定价、速度和写作质感，最合理的解释是：

假设	是否兼容证据
小模型（GPT-4o 级别）	❌ T1–T4 表现和定价不支持
5T+ dense	❌ 服务成本不现实，T6/T7 表现也不够强
50B active 超稀疏 MoE	❌ 写作质感和定价不支持
1T–3T 总参、200B–600B active 的大 active MoE	✅ 全部证据兼容

中心估计：总参数约 1.5T–2T，活跃参数约 300B–500B。

8. GPT-4.5 在当前模型谱系中的位置

GPT-4.5 不应被视为新一代 reasoning-first 模型。它更像是上一个时代的产物：

高于 GPT-4o
接近 GPT-4.1 / Gemini 2.5 Pro / Claude Opus 一带
低于 GPT-5，明显低于 GPT-5.5

它的核心特征是语言建模极厚——每个 token 都经过了大量参数的加工——而非依靠推理链或工具调用来获取能力。这解释了它的矛盾感：写作惊艳，但推理平平；知识丰富，但深尾不足；存在感强，但不是前沿。

9. 局限性

样本为事后构建，非 canonical IKP 评估
未做子集专属校准
采样脚本和随机种子不可审计
320 题远少于标准 1,400 题
长尾分布偏重，对汇总方式敏感
IKP 高分段估计本身就对评分口径和题目质量非常敏感

如需更可靠的结论，应从零构建一个 canonical holdout 样本（每层 50 题，共 350 题），并在运行前锁定所有实验参数。

10. 结论

GPT-4.5 在一个 320 题的非正式 IKP 测试中，表现出约 1.3T–1.8T 的等效事实容量。结合定价和速度证据，其架构最可能是 总参数 1T–3T、活跃参数数百 B 的大 active MoE。

它不是小模型，不是超稀疏 MoE，也不是多 T dense。它是一个语言建模极厚、成本极高、写作能力突出但不属于新一代推理范式的巨型模型。

GPT-4.5 模型到底有多大？