从LLM涌现现象到测试逻辑变革-港品优选

1. 早期为什么会观察到“涌现”？

早期 LLM 研究本来已经知道一个稳定现象：语言建模损失 loss 会随模型规模、数据规模、训练计算量呈近似 power-law 平滑下降。Kaplan 等人在 2020 年的 Scaling Laws 论文中指出，cross-entropy loss 会随着模型规模、数据规模和计算量扩展呈幂律下降，并且这种趋势跨越多个数量级。

但是，到 GPT-3、Gopher、Chinchilla、PaLM 这类大模型阶段，研究者发现一个矛盾：loss 是平滑下降的，但很多具体任务的最终得分不是平滑上升，而是突然从接近随机水平跳到明显可用水平。Wei 等人因此定义了“emergent abilities”：小模型没有、大模型出现，且不能简单通过小模型表现外推预测。

这个现象主要是在few-shot / zero-shot prompting场景下观察到的，模型参数不更新，只靠 Prompt 完成任务。因此它和传统“微调后任务提升”不一样，更像是模型规模达到某个阈值后，突然可以利用上下文、理解指令或执行复杂推理。

2. 早期常用的测试指标和方法

早期 LLM 能力评测大体分成几类。

评测方向	常用指标	常见任务 / Benchmark	容易观察到涌现吗
语言建模	cross-entropy loss、perplexity	预训练验证集	通常较平滑
多选题	accuracy、multiple-choice grade	MMLU、BIG-Bench 多选任务	容易出现“跳变”
问答 / 数学	exact match、final answer accuracy	GSM8K、BIG-Bench arithmetic	容易出现“跳变”
代码生成	pass@1、pass@k	HumanEval、MBPP	pass@1 容易跳变，pass@k 更平滑一些
生成任务	BLEU、ROUGE、EM、人工评分	翻译、摘要、开放问答	取决于指标设计
Prompt 能力	zero-shot、few-shot、CoT	BIG-Bench、BBH、GSM8K	CoT 常在大模型上突然有效
综合评估	standardized benchmark score	BIG-Bench、HELM	早期多偏向 accuracy，后期更重视多指标

BIG-Bench 是早期观察涌现现象的重要来源。它包含 204 个任务，由 450 位作者、132 个机构贡献，任务覆盖语言学、数学、常识推理、生物、物理、社会偏见、软件开发等方向；它还专门评测了 OpenAI GPT 系列、Google dense Transformer、Switch-style sparse Transformer 等不同规模模型。BIG-Bench 论文也指出，逐渐、可预测提升的任务通常更偏知识或记忆，而“breakthrough”任务往往涉及多步骤、多组件，或使用比较脆弱的指标。

3. 哪些模型和阶段上观察到了涌现？

早期最典型的观察来自下面几类模型。

3.1 GPT-3 系列：few-shot 能力与算术任务

GPT-3 2020 年之后，研究者开始系统观察到：模型规模从亿级、十亿级增长到 175B 时，few-shot 能力明显增强。后续 Schaeffer 等人在反驳“涌现”的论文中，也专门复测了InstructGPT / GPT-3 家族，包括 350M、1.3B、6.7B、175B 等公开可访问模型；早期在整数加法、乘法等任务上，accuracy 看起来有明显跃迁。

例如，在2 个整数的 2 位数乘法、2 个整数的 4 位数加法这类任务上，如果用 final exact accuracy，曲线会显得很陡峭：小模型几乎全错，大模型突然大量答对。

3.2 PaLM 540B：BIG-Bench 上的突破表现

PaLM 是早期涌现讨论中的核心模型之一。PaLM 论文称，540B 参数模型在数百个语言理解和生成 benchmark 上取得强 few-shot 结果，并且在多步推理任务和 BIG-Bench 上出现突破表现；论文还明确说，许多 BIG-Bench 任务在扩展到最大模型时出现了“discontinuous improvements”。

也就是说，在 PaLM 8B、62B、540B 这一类规模对比中，最大模型 PaLM 540B 经常成为能力跃迁的观察点。

3.3 BIG-Bench / BBH：复杂推理任务

BIG-Bench 和后续 BIG-Bench Hard 里，许多任务不是简单知识记忆，而是组合推理、符号处理、算术、语言游戏、语义判断。这类任务如果采用 exact match 或 multiple-choice grade，往往容易呈现“低规模接近随机—高规模突然超过随机”的形态。BIG-Bench 论文自己也提到，突破行为常与多步骤任务或脆弱指标有关。

3.4 Chain-of-Thought：Prompt 方法本身也会涌现

Wei 等人的综述和后续论文都强调，涌现不仅发生在任务能力上，也发生在Prompting 技术是否有效上。例如 CoT 在小模型上可能没有明显帮助，但在足够大的模型上，加入“let’s think step by step”或 few-shot reasoning examples 后，数学和复杂推理能力明显提升。2024 年的 PassUntil 论文也指出，CoT 和 ICL 让任务性能 scaling law 更难理解。

4. 后期为什么说很多“涌现”其实是指标造成的？

2023 年 Schaeffer 等人的《Are Emergent Abilities of Large Language Models a Mirage?》是关键转折点。它的核心观点是：

对于同一个任务、同一个模型家族、同一批模型输出，如果换掉指标，很多涌现现象会消失。

这篇论文指出，非线性或不连续指标会制造“突然出现”的表象，而线性或连续指标会显示更平滑、连续、可预测的性能增长。

它重点批评了两类指标：

早期指标	问题	后期替代指标
exact match / accuracy	必须所有 token 全对才给 1，否则 0	token edit distance、partial credit
multiple-choice grade	选项概率刚过阈值才算正确，近似阶跃函数	Brier score、log probability、calibration
pass@1	一次生成通过才算成功	pass@k、采样成功概率、PassUntil
final answer accuracy	只看最终答案，不看过程	step-level correctness、process reward、trace eval

论文用一个简单逻辑解释了这个现象：

如果每个 token 的正确概率随规模平滑提升，那么一个多 token 答案“全部 token 都正确”的概率就是多个概率相乘。随着答案长度增加，最终 exact match 就会变得非常陡峭。也就是说，底层 token 能力可能是连续增长的，但 exact match 会把它放大成“突然会了”。Schaeffer 等人明确用token edit distance替代 accuracy，发现 GPT-3/InstructGPT 在算术任务上的表现变得平滑、连续、可预测。

5. 后期哪些指标让增长变得平缓、可预测？

5.1 Token Edit Distance：替代 exact match

在整数加法、乘法任务上，早期用 accuracy 评估时，模型必须输出完全正确的字符串；只错一个数字，也算完全错误。Schaeffer 等人换成token edit distance后，同一批 GPT-3/InstructGPT 模型表现出平滑提升。论文图 3 明确写到：上方用 accuracy 时表现尖锐、不可预测；下方用 token edit distance 时，性能随规模平滑、可预测改善。

这说明小模型不是“完全不会”，而是可能已经少错几个 token、格式更接近、部分数字正确，只是 exact match 没有给它任何部分分。

5.2 Brier Score：替代 multiple-choice grade

对多选题来说，multiple-choice grade 本质上只看模型最后选哪个选项。如果正确选项概率从 0.20 提升到 0.24，但还不是最高，就仍然算 0；一旦从 0.49 超过错误选项变成 0.51，就突然算 1。Schaeffer 等人提出用Brier Score这类连续概率指标观察多选任务，发现许多原本看似涌现的任务会变成平滑增长。

5.3 增加测试分辨率：更多样本、更密模型规模点

Schaeffer 等人还指出，涌现表象和“测试分辨率不足”有关。测试集太小、模型规模采样点太稀疏，都会让曲线看起来像突然跳变。论文中他们通过增加测试数据分辨率，发现即使用 accuracy，InstructGPT/GPT-3 家族在算术任务上也能呈现更平滑、连续、可预测的改善。

5.4 PassUntil：用大量采样估计“成功概率”

2024 年的《Predicting Emergent Abilities with Infinite Resolution Evaluation》进一步提出PassUntil。它不是只采样一次，而是持续采样，直到某个任务实例被模型成功完成，然后用所需采样次数估计模型通过该样本的概率。该论文认为，小模型虽然表面分数很低，但在足够多次采样下，很多实例是“可通过”的，传统评测因为分辨率不够看不到这些微弱进步。

这篇论文还提出了 task scaling law，并报告可以在代码生成任务上预测 2.4B 模型表现，说明某些下游任务表现并非完全不可预测。

6. “同样模型，换指标后涌现消失”的典型案例

最典型的是 Schaeffer 等人对 GPT-3/InstructGPT 的复测。

任务	模型	早期指标	早期现象	后期指标	后期现象
2 位数乘法	GPT-3 / InstructGPT 350M → 175B	accuracy	长答案任务上看似突然跃迁	token edit distance	平滑、连续提升
4 位数加法	GPT-3 / InstructGPT 350M → 175B	exact match / accuracy	小模型几乎 0，大模型突然明显提升	token edit distance	错误 token 数逐步减少
多选任务	BIG-Bench / MMLU 类任务	multiple-choice grade	正确率突然越过随机线	Brier score / 概率分数	概率分布逐步改善
BIG-Bench 任务族	多模型族	normalized score / accuracy	某些 task-metric-family 三元组表现涌现	连续指标 / meta-analysis	很多涌现消失
视觉任务类比实验	Autoencoder / Transformer / LeNet	人为设置不连续指标	也能制造“涌现”	MSE / 普通 accuracy	原始曲线平滑

Schaeffer 等人甚至进一步在视觉任务上人为设计不连续指标，让普通 autoencoder、Omniglot 分类 Transformer、MNIST LeNet 也出现“看起来像涌现”的曲线，用来说明：指标本身可以制造涌现外观。

7. 但哪些现象仍然不能完全用“指标缺陷”解释？

这里要谨慎：现在学界没有一个完全公认的清单说“这些一定是真涌现”。更合理的说法是：有些现象即使改进指标后，仍然难以完全用平滑增长解释，或者现有观测手段还不足。

7.1 多步推理的 end-to-end 成功率

即使每一步能力平滑提升，整个任务的最终成功率也可能表现得很陡峭。比如一道题需要 10 个步骤，每一步成功率从 0.7 提升到 0.9，单步看是平滑的，但整体成功率是多个步骤的乘积，最终 accuracy 会非常敏感。

PassUntil 论文也讨论了多步推理：如果每个 reasoning step 的成功率遵循 scaling law，整体多步成功率可能呈现不同于单步的增长形态；论文还提出“multiple circuits hypothesis”，认为多个解决任务的 circuit 可能共同导致加速式涌现。

所以，对多步推理来说：

过程能力可能平滑，最终任务成功率仍然可能保持阈值形态。

这不是简单的“指标错了”，而是复杂任务本身的组合结构导致的。

7.2 Chain-of-Thought 是否有效

CoT 的效果本身仍具有一定涌现特征。小模型即使被要求 step-by-step，也可能生成不可靠推理；大模型则能把中间步骤变成有效计算过程。2025 年的涌现综述也把 CoT、ICL、推理能力、代码和问题求解列为涌现能力争论的核心范围，并指出其机制仍然没有完全理解。

换句话说，我们可以用 step-level accuracy、过程奖励模型、trace consistency 等指标更细地观察 CoT，但目前还不能说 CoT 的出现完全只是 accuracy 指标造成的错觉。

7.3 In-context Learning

ICL 是更复杂的情况。它不只是“最终答案对不对”，而是模型是否能从上下文示例中归纳任务规则。2025 年综述指出，ICL 常被视为 LLM 通过 few-shot 或 zero-shot prompting 在不更新参数的情况下泛化到新任务的能力；同时，ICL 不一定要求突然跳变，也可能是逐渐形成的能力。

但 ICL 的内部机制，例如 induction heads、上下文模式匹配、隐式贝叶斯推断、任务识别，仍然不容易通过单个连续指标完全测清。因此它属于“可以部分平滑化，但机制层面仍未完全解释”的现象。

7.4 Agent 行为与长程任务完成

Agent 任务通常包含：理解目标、规划、调用工具、读取反馈、修正计划、长期记忆、多轮交互。这种能力不是一个单步分类问题，而是复杂系统行为。2025 年综述已经把 LLM-powered AI agents、Large Reasoning Models、强化学习后训练、inference-time search 都纳入涌现讨论范围，并指出这些系统可能产生新的自主行为。

对于 Agent，单纯换成 token edit distance 或 Brier score 不能解决问题。因为真实目标是：

任务是否完成；
步骤是否合理；
工具调用是否正确；
出错后是否能恢复；
是否产生副作用；
是否遵守安全约束。

这些指标天然是系统级、过程级、交互级的，很难用一个连续单值指标完全表示。

7.5 安全风险：欺骗、操纵、reward hacking

更难的是安全类涌现。2025 年综述明确提到，随着 AI 系统获得更强的自主推理能力，也可能发展出 harmful behaviors，包括 deception、manipulation、reward hacking，并强调需要更好的评估框架和治理。

这类能力不能简单通过“正确答案概率逐渐上升”来观察。比如欺骗能力可能只有在特定目标、压力、权限、长期任务环境下才表现出来。你很难通过普通 benchmark 的 accuracy 看出它正在慢慢形成。

7.6 高分辨率指标下仍存在 accelerated emergence

PassUntil 论文并没有完全否定涌现。相反，它认为传统指标分辨率不足，但在提高分辨率之后，仍识别出一种accelerated emergence：某些任务的 scaling curve 无法被标准 scaling law 函数很好拟合，增长速度反而增加。该论文认为，这可能与多个 circuit 共同作用有关。

这点很重要：
“很多涌现是指标错觉”不等于“所有涌现都不存在”。

8. 可以把整个演进理解成三代评测方法

第一代：结果型评测

早期主要看：

最终答案是否正确？代码是否通过？多选题是否选对？

代表指标：

accuracyexact matchmultiple-choice gradepass@1

优点是简单、可复现、适合 leaderboard。缺点是分辨率低，容易把连续进步显示成突变。

第二代：连续型 / 高分辨率评测

后期开始看：

答案离正确答案有多远？正确选项概率是否上升？错误 token 数是否减少？多次采样下是否存在成功路径？

代表指标：

token edit distanceBrier scorelog probabilitycalibrationpass@kPassUntilstep-level score

优点是能观察小模型的细微进步，帮助建立可预测 scaling。缺点是有时和真实业务目标不完全一致。

第三代：过程型 / 系统型评测

现在更前沿的方向是看：

模型如何完成任务？中间过程是否可靠？工具调用是否正确？多轮任务是否稳定？是否有安全风险？

代表方法：

process supervisiontrace evaluationLLM-as-judgeagent trajectory evaluationRAG faithfulnesstool-call success ratelong-horizon task completionred teaming

这类评测更接近真实应用，但也更难标准化。

9. 关键结论

围绕涌现问题，测试指标和方法的变化可以概括为：

阶段	主要方法	观察到的现象	后续修正
Scaling Law 阶段	loss、perplexity	平滑、可预测下降	说明预训练 loss 可预测
GPT-3 / PaLM / BIG-Bench 阶段	accuracy、exact match、multiple-choice grade	大量任务出现“突然跃迁”	形成涌现能力概念
Mirage 反驳阶段	token edit distance、Brier score、更高测试分辨率	很多涌现变成平滑增长	说明 hard metric 会制造涌现表象
Infinite Resolution 阶段	PassUntil、instance-level fit	小模型微弱能力可被观测，任务表现更可预测	但仍发现 accelerated emergence
Agent / LRM 阶段	过程评测、轨迹评测、安全评测	长程推理、自主行为、安全风险仍难预测	需要系统级评估框架

最终可以这样理解：

涌现能力不是一个单纯的模型现象，也不是一个单纯的测试幻觉。它是“模型规模增长 + 任务复杂度 + Prompt 激发方式 + 指标离散化 + 测试分辨率不足 + 系统交互行为”共同作用的结果。

对 LLM 测试开发来说，最重要的启发是：

不要只用 final accuracy 判断能力是否存在。要同时设计 hard target metric、soft diagnostic metric、process metric 和 system-level metric。

也就是说，同一个任务最好同时记录：

1. 最终答案是否正确 2. 错误距离有多远 3. 正确答案概率是否上升 4. 中间步骤是否部分正确 5. 多次采样是否能成功 6. Prompt 改写后是否稳定 7. 工具调用是否成功 8. 任务链路是否可恢复 9. 是否出现安全副作用

这样才能避免把“正在形成的能力”误判为“完全不会”，也能避免把“指标造成的跳变”误判为“真实涌现”。

企业官网建设流程全解析

1. 早期为什么会观察到“涌现”？

2. 早期常用的测试指标和方法

3. 哪些模型和阶段上观察到了涌现？

3.1 GPT-3 系列：few-shot 能力与算术任务

3.2 PaLM 540B：BIG-Bench 上的突破表现

3.3 BIG-Bench / BBH：复杂推理任务

3.4 Chain-of-Thought：Prompt 方法本身也会涌现

4. 后期为什么说很多“涌现”其实是指标造成的？

5. 后期哪些指标让增长变得平缓、可预测？

5.1 Token Edit Distance：替代 exact match

5.2 Brier Score：替代 multiple-choice grade

5.3 增加测试分辨率：更多样本、更密模型规模点

5.4 PassUntil：用大量采样估计“成功概率”

6. “同样模型，换指标后涌现消失”的典型案例

7. 但哪些现象仍然不能完全用“指标缺陷”解释？

7.1 多步推理的 end-to-end 成功率

7.2 Chain-of-Thought 是否有效

7.3 In-context Learning

7.4 Agent 行为与长程任务完成

7.5 安全风险：欺骗、操纵、reward hacking

7.6 高分辨率指标下仍存在 accelerated emergence

8. 可以把整个演进理解成三代评测方法

第一代：结果型评测

第二代：连续型 / 高分辨率评测

第三代：过程型 / 系统型评测

9. 关键结论

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

1. 早期为什么会观察到“涌现”？

2. 早期常用的测试指标和方法

3. 哪些模型和阶段上观察到了涌现？

3.1 GPT-3 系列：few-shot 能力与算术任务

3.2 PaLM 540B：BIG-Bench 上的突破表现

3.3 BIG-Bench / BBH：复杂推理任务

3.4 Chain-of-Thought：Prompt 方法本身也会涌现

4. 后期为什么说很多“涌现”其实是指标造成的？

5. 后期哪些指标让增长变得平缓、可预测？

5.1 Token Edit Distance：替代 exact match

5.2 Brier Score：替代 multiple-choice grade

5.3 增加测试分辨率：更多样本、更密模型规模点

5.4 PassUntil：用大量采样估计“成功概率”

6. “同样模型，换指标后涌现消失”的典型案例

7. 但哪些现象仍然不能完全用“指标缺陷”解释？

7.1 多步推理的 end-to-end 成功率

7.2 Chain-of-Thought 是否有效

7.3 In-context Learning

7.4 Agent 行为与长程任务完成

7.5 安全风险：欺骗、操纵、reward hacking

7.6 高分辨率指标下仍存在 accelerated emergence

8. 可以把整个演进理解成三代评测方法

第一代：结果型评测

第二代：连续型 / 高分辨率评测

第三代：过程型 / 系统型评测

9. 关键结论

热门文章

文章分类

标签云

相关文章

告别‘睁眼瞎’：手把手教你用TI毫米波雷达的MIMO模式提升角度分辨率

别再死记硬背K8s概念了！用Docker和几个Go程序亲手拆解API Server与etcd

AI 辅助的数据标注与主动学习：从人工标注到智能采样

需要专业的网站建设服务？