1. 早期为什么会观察到“涌现”?
早期 LLM 研究本来已经知道一个稳定现象:语言建模损失 loss 会随模型规模、数据规模、训练计算量呈近似 power-law 平滑下降。Kaplan 等人在 2020 年的 Scaling Laws 论文中指出,cross-entropy loss 会随着模型规模、数据规模和计算量扩展呈幂律下降,并且这种趋势跨越多个数量级。
但是,到 GPT-3、Gopher、Chinchilla、PaLM 这类大模型阶段,研究者发现一个矛盾:loss 是平滑下降的,但很多具体任务的最终得分不是平滑上升,而是突然从接近随机水平跳到明显可用水平。Wei 等人因此定义了“emergent abilities”:小模型没有、大模型出现,且不能简单通过小模型表现外推预测。
这个现象主要是在few-shot / zero-shot prompting场景下观察到的,模型参数不更新,只靠 Prompt 完成任务。因此它和传统“微调后任务提升”不一样,更像是模型规模达到某个阈值后,突然可以利用上下文、理解指令或执行复杂推理。
2. 早期常用的测试指标和方法
早期 LLM 能力评测大体分成几类。
| 评测方向 | 常用指标 | 常见任务 / Benchmark | 容易观察到涌现吗 |
|---|---|---|---|
| 语言建模 | cross-entropy loss、perplexity | 预训练验证集 | 通常较平滑 |
| 多选题 | accuracy、multiple-choice grade | MMLU、BIG-Bench 多选任务 | 容易出现“跳变” |
| 问答 / 数学 | exact match、final answer accuracy | GSM8K、BIG-Bench arithmetic | 容易出现“跳变” |
| 代码生成 | pass@1、pass@k | HumanEval、MBPP | pass@1 容易跳变,pass@k 更平滑一些 |
| 生成任务 | BLEU、ROUGE、EM、人工评分 | 翻译、摘要、开放问答 | 取决于指标设计 |
| Prompt 能力 | zero-shot、few-shot、CoT | BIG-Bench、BBH、GSM8K | CoT 常在大模型上突然有效 |
| 综合评估 | standardized benchmark score | BIG-Bench、HELM | 早期多偏向 accuracy,后期更重视多指标 |
BIG-Bench 是早期观察涌现现象的重要来源。它包含 204 个任务,由 450 位作者、132 个机构贡献,任务覆盖语言学、数学、常识推理、生物、物理、社会偏见、软件开发等方向;它还专门评测了 OpenAI GPT 系列、Google dense Transformer、Switch-style sparse Transformer 等不同规模模型。BIG-Bench 论文也指出,逐渐、可预测提升的任务通常更偏知识或记忆,而“breakthrough”任务往往涉及多步骤、多组件,或使用比较脆弱的指标。
3. 哪些模型和阶段上观察到了涌现?
早期最典型的观察来自下面几类模型。
3.1 GPT-3 系列:few-shot 能力与算术任务
GPT-3 2020 年之后,研究者开始系统观察到:模型规模从亿级、十亿级增长到 175B 时,few-shot 能力明显增强。后续 Schaeffer 等人在反驳“涌现”的论文中,也专门复测了InstructGPT / GPT-3 家族,包括 350M、1.3B、6.7B、175B 等公开可访问模型;早期在整数加法、乘法等任务上,accuracy 看起来有明显跃迁。
例如,在2 个整数的 2 位数乘法、2 个整数的 4 位数加法这类任务上,如果用 final exact accuracy,曲线会显得很陡峭:小模型几乎全错,大模型突然大量答对。
3.2 PaLM 540B:BIG-Bench 上的突破表现
PaLM 是早期涌现讨论中的核心模型之一。PaLM 论文称,540B 参数模型在数百个语言理解和生成 benchmark 上取得强 few-shot 结果,并且在多步推理任务和 BIG-Bench 上出现突破表现;论文还明确说,许多 BIG-Bench 任务在扩展到最大模型时出现了“discontinuous improvements”。
也就是说,在 PaLM 8B、62B、540B 这一类规模对比中,最大模型 PaLM 540B 经常成为能力跃迁的观察点。
3.3 BIG-Bench / BBH:复杂推理任务
BIG-Bench 和后续 BIG-Bench Hard 里,许多任务不是简单知识记忆,而是组合推理、符号处理、算术、语言游戏、语义判断。这类任务如果采用 exact match 或 multiple-choice grade,往往容易呈现“低规模接近随机—高规模突然超过随机”的形态。BIG-Bench 论文自己也提到,突破行为常与多步骤任务或脆弱指标有关。
3.4 Chain-of-Thought:Prompt 方法本身也会涌现
Wei 等人的综述和后续论文都强调,涌现不仅发生在任务能力上,也发生在Prompting 技术是否有效上。例如 CoT 在小模型上可能没有明显帮助,但在足够大的模型上,加入“let’s think step by step”或 few-shot reasoning examples 后,数学和复杂推理能力明显提升。2024 年的 PassUntil 论文也指出,CoT 和 ICL 让任务性能 scaling law 更难理解。
4. 后期为什么说很多“涌现”其实是指标造成的?
2023 年 Schaeffer 等人的《Are Emergent Abilities of Large Language Models a Mirage?》是关键转折点。它的核心观点是:
对于同一个任务、同一个模型家族、同一批模型输出,如果换掉指标,很多涌现现象会消失。
这篇论文指出,非线性或不连续指标会制造“突然出现”的表象,而线性或连续指标会显示更平滑、连续、可预测的性能增长。
它重点批评了两类指标:
| 早期指标 | 问题 | 后期替代指标 |
|---|---|---|
| exact match / accuracy | 必须所有 token 全对才给 1,否则 0 | token edit distance、partial credit |
| multiple-choice grade | 选项概率刚过阈值才算正确,近似阶跃函数 | Brier score、log probability、calibration |
| pass@1 | 一次生成通过才算成功 | pass@k、采样成功概率、PassUntil |
| final answer accuracy | 只看最终答案,不看过程 | step-level correctness、process reward、trace eval |
论文用一个简单逻辑解释了这个现象:
如果每个 token 的正确概率随规模平滑提升,那么一个多 token 答案“全部 token 都正确”的概率就是多个概率相乘。随着答案长度增加,最终 exact match 就会变得非常陡峭。也就是说,底层 token 能力可能是连续增长的,但 exact match 会把它放大成“突然会了”。Schaeffer 等人明确用token edit distance替代 accuracy,发现 GPT-3/InstructGPT 在算术任务上的表现变得平滑、连续、可预测。
5. 后期哪些指标让增长变得平缓、可预测?
5.1 Token Edit Distance:替代 exact match
在整数加法、乘法任务上,早期用 accuracy 评估时,模型必须输出完全正确的字符串;只错一个数字,也算完全错误。Schaeffer 等人换成token edit distance后,同一批 GPT-3/InstructGPT 模型表现出平滑提升。论文图 3 明确写到:上方用 accuracy 时表现尖锐、不可预测;下方用 token edit distance 时,性能随规模平滑、可预测改善。
这说明小模型不是“完全不会”,而是可能已经少错几个 token、格式更接近、部分数字正确,只是 exact match 没有给它任何部分分。
5.2 Brier Score:替代 multiple-choice grade
对多选题来说,multiple-choice grade 本质上只看模型最后选哪个选项。如果正确选项概率从 0.20 提升到 0.24,但还不是最高,就仍然算 0;一旦从 0.49 超过错误选项变成 0.51,就突然算 1。Schaeffer 等人提出用Brier Score这类连续概率指标观察多选任务,发现许多原本看似涌现的任务会变成平滑增长。
5.3 增加测试分辨率:更多样本、更密模型规模点
Schaeffer 等人还指出,涌现表象和“测试分辨率不足”有关。测试集太小、模型规模采样点太稀疏,都会让曲线看起来像突然跳变。论文中他们通过增加测试数据分辨率,发现即使用 accuracy,InstructGPT/GPT-3 家族在算术任务上也能呈现更平滑、连续、可预测的改善。
5.4 PassUntil:用大量采样估计“成功概率”
2024 年的《Predicting Emergent Abilities with Infinite Resolution Evaluation》进一步提出PassUntil。它不是只采样一次,而是持续采样,直到某个任务实例被模型成功完成,然后用所需采样次数估计模型通过该样本的概率。该论文认为,小模型虽然表面分数很低,但在足够多次采样下,很多实例是“可通过”的,传统评测因为分辨率不够看不到这些微弱进步。
这篇论文还提出了 task scaling law,并报告可以在代码生成任务上预测 2.4B 模型表现,说明某些下游任务表现并非完全不可预测。
6. “同样模型,换指标后涌现消失”的典型案例
最典型的是 Schaeffer 等人对 GPT-3/InstructGPT 的复测。
| 任务 | 模型 | 早期指标 | 早期现象 | 后期指标 | 后期现象 |
|---|---|---|---|---|---|
| 2 位数乘法 | GPT-3 / InstructGPT 350M → 175B | accuracy | 长答案任务上看似突然跃迁 | token edit distance | 平滑、连续提升 |
| 4 位数加法 | GPT-3 / InstructGPT 350M → 175B | exact match / accuracy | 小模型几乎 0,大模型突然明显提升 | token edit distance | 错误 token 数逐步减少 |
| 多选任务 | BIG-Bench / MMLU 类任务 | multiple-choice grade | 正确率突然越过随机线 | Brier score / 概率分数 | 概率分布逐步改善 |
| BIG-Bench 任务族 | 多模型族 | normalized score / accuracy | 某些 task-metric-family 三元组表现涌现 | 连续指标 / meta-analysis | 很多涌现消失 |
| 视觉任务类比实验 | Autoencoder / Transformer / LeNet | 人为设置不连续指标 | 也能制造“涌现” | MSE / 普通 accuracy | 原始曲线平滑 |
Schaeffer 等人甚至进一步在视觉任务上人为设计不连续指标,让普通 autoencoder、Omniglot 分类 Transformer、MNIST LeNet 也出现“看起来像涌现”的曲线,用来说明:指标本身可以制造涌现外观。
7. 但哪些现象仍然不能完全用“指标缺陷”解释?
这里要谨慎:现在学界没有一个完全公认的清单说“这些一定是真涌现”。更合理的说法是:有些现象即使改进指标后,仍然难以完全用平滑增长解释,或者现有观测手段还不足。
7.1 多步推理的 end-to-end 成功率
即使每一步能力平滑提升,整个任务的最终成功率也可能表现得很陡峭。比如一道题需要 10 个步骤,每一步成功率从 0.7 提升到 0.9,单步看是平滑的,但整体成功率是多个步骤的乘积,最终 accuracy 会非常敏感。
PassUntil 论文也讨论了多步推理:如果每个 reasoning step 的成功率遵循 scaling law,整体多步成功率可能呈现不同于单步的增长形态;论文还提出“multiple circuits hypothesis”,认为多个解决任务的 circuit 可能共同导致加速式涌现。
所以,对多步推理来说:
过程能力可能平滑,最终任务成功率仍然可能保持阈值形态。
这不是简单的“指标错了”,而是复杂任务本身的组合结构导致的。
7.2 Chain-of-Thought 是否有效
CoT 的效果本身仍具有一定涌现特征。小模型即使被要求 step-by-step,也可能生成不可靠推理;大模型则能把中间步骤变成有效计算过程。2025 年的涌现综述也把 CoT、ICL、推理能力、代码和问题求解列为涌现能力争论的核心范围,并指出其机制仍然没有完全理解。
换句话说,我们可以用 step-level accuracy、过程奖励模型、trace consistency 等指标更细地观察 CoT,但目前还不能说 CoT 的出现完全只是 accuracy 指标造成的错觉。
7.3 In-context Learning
ICL 是更复杂的情况。它不只是“最终答案对不对”,而是模型是否能从上下文示例中归纳任务规则。2025 年综述指出,ICL 常被视为 LLM 通过 few-shot 或 zero-shot prompting 在不更新参数的情况下泛化到新任务的能力;同时,ICL 不一定要求突然跳变,也可能是逐渐形成的能力。
但 ICL 的内部机制,例如 induction heads、上下文模式匹配、隐式贝叶斯推断、任务识别,仍然不容易通过单个连续指标完全测清。因此它属于“可以部分平滑化,但机制层面仍未完全解释”的现象。
7.4 Agent 行为与长程任务完成
Agent 任务通常包含:理解目标、规划、调用工具、读取反馈、修正计划、长期记忆、多轮交互。这种能力不是一个单步分类问题,而是复杂系统行为。2025 年综述已经把 LLM-powered AI agents、Large Reasoning Models、强化学习后训练、inference-time search 都纳入涌现讨论范围,并指出这些系统可能产生新的自主行为。
对于 Agent,单纯换成 token edit distance 或 Brier score 不能解决问题。因为真实目标是:
- 任务是否完成;
- 步骤是否合理;
- 工具调用是否正确;
- 出错后是否能恢复;
- 是否产生副作用;
- 是否遵守安全约束。
这些指标天然是系统级、过程级、交互级的,很难用一个连续单值指标完全表示。
7.5 安全风险:欺骗、操纵、reward hacking
更难的是安全类涌现。2025 年综述明确提到,随着 AI 系统获得更强的自主推理能力,也可能发展出 harmful behaviors,包括 deception、manipulation、reward hacking,并强调需要更好的评估框架和治理。
这类能力不能简单通过“正确答案概率逐渐上升”来观察。比如欺骗能力可能只有在特定目标、压力、权限、长期任务环境下才表现出来。你很难通过普通 benchmark 的 accuracy 看出它正在慢慢形成。
7.6 高分辨率指标下仍存在 accelerated emergence
PassUntil 论文并没有完全否定涌现。相反,它认为传统指标分辨率不足,但在提高分辨率之后,仍识别出一种accelerated emergence:某些任务的 scaling curve 无法被标准 scaling law 函数很好拟合,增长速度反而增加。该论文认为,这可能与多个 circuit 共同作用有关。
这点很重要:
“很多涌现是指标错觉”不等于“所有涌现都不存在”。
8. 可以把整个演进理解成三代评测方法
第一代:结果型评测
早期主要看:
最终答案是否正确?代码是否通过?多选题是否选对?代表指标:
accuracyexact matchmultiple-choice gradepass@1优点是简单、可复现、适合 leaderboard。缺点是分辨率低,容易把连续进步显示成突变。
第二代:连续型 / 高分辨率评测
后期开始看:
答案离正确答案有多远?正确选项概率是否上升?错误 token 数是否减少?多次采样下是否存在成功路径?代表指标:
token edit distanceBrier scorelog probabilitycalibrationpass@kPassUntilstep-level score优点是能观察小模型的细微进步,帮助建立可预测 scaling。缺点是有时和真实业务目标不完全一致。
第三代:过程型 / 系统型评测
现在更前沿的方向是看:
模型如何完成任务?中间过程是否可靠?工具调用是否正确?多轮任务是否稳定?是否有安全风险?代表方法:
process supervisiontrace evaluationLLM-as-judgeagent trajectory evaluationRAG faithfulnesstool-call success ratelong-horizon task completionred teaming这类评测更接近真实应用,但也更难标准化。
9. 关键结论
围绕涌现问题,测试指标和方法的变化可以概括为:
| 阶段 | 主要方法 | 观察到的现象 | 后续修正 |
|---|---|---|---|
| Scaling Law 阶段 | loss、perplexity | 平滑、可预测下降 | 说明预训练 loss 可预测 |
| GPT-3 / PaLM / BIG-Bench 阶段 | accuracy、exact match、multiple-choice grade | 大量任务出现“突然跃迁” | 形成涌现能力概念 |
| Mirage 反驳阶段 | token edit distance、Brier score、更高测试分辨率 | 很多涌现变成平滑增长 | 说明 hard metric 会制造涌现表象 |
| Infinite Resolution 阶段 | PassUntil、instance-level fit | 小模型微弱能力可被观测,任务表现更可预测 | 但仍发现 accelerated emergence |
| Agent / LRM 阶段 | 过程评测、轨迹评测、安全评测 | 长程推理、自主行为、安全风险仍难预测 | 需要系统级评估框架 |
最终可以这样理解:
涌现能力不是一个单纯的模型现象,也不是一个单纯的测试幻觉。它是“模型规模增长 + 任务复杂度 + Prompt 激发方式 + 指标离散化 + 测试分辨率不足 + 系统交互行为”共同作用的结果。
对 LLM 测试开发来说,最重要的启发是:
不要只用 final accuracy 判断能力是否存在。要同时设计 hard target metric、soft diagnostic metric、process metric 和 system-level metric。
也就是说,同一个任务最好同时记录:
1. 最终答案是否正确 2. 错误距离有多远 3. 正确答案概率是否上升 4. 中间步骤是否部分正确 5. 多次采样是否能成功 6. Prompt 改写后是否稳定 7. 工具调用是否成功 8. 任务链路是否可恢复 9. 是否出现安全副作用这样才能避免把“正在形成的能力”误判为“完全不会”,也能避免把“指标造成的跳变”误判为“真实涌现”。