马里兰大学出了个“免培训“数学AI方案-港品优选

这项由马里兰大学计算机科学系主导的研究于2026年6月1日发布，论文编号为arXiv:2606.01682，有兴趣深入了解的读者可通过该编号查询完整论文。

**研究概要：一道让AI更聪明的"分步批改"难题**

假设你是一位数学老师，手里有一批学生——其中有几个"学霸"，也有几个"普通学生"。现在有一道复杂的数学题，你让普通学生各自写出解题过程，然后让学霸来判断哪个普通学生的答案最好。这是目前AI数学推理领域最常见的做法：让小型AI模型生成多个答案，再用大型AI模型从中挑选最佳的一个。

然而，这种"事后挑选"的方式有一个根本性的缺陷——普通学生在写题的过程中可能早早就走错了方向，等到学霸来评判的时候，所有人的答案都已经"歪了"，学霸只能从一堆错误答案里选个"最不差"的，而无法真正帮到任何人。

马里兰大学的研究团队正是发现了这个问题，并提出了一个截然不同的解法：与其让学霸在最后"评卷"，不如让学霸在普通学生"写题的过程中"就不断介入——每写一小段，就由学霸来判断哪个方向最好，然后继续沿这个方向写下去。

更巧妙的是，这位"学霸大模型"压根儿不需要自己提笔写字，它只需要"看"，看普通学生写的每一小段，然后给出自己的评分。这样一来，既利用了大模型的判断力，又不需要为此做任何专门的训练，也不需要购置昂贵的"专业评分模型"。研究团队将这套方案命名为"分块引导生成"（Chunk-Level Guided Generation），并在五个主流数学推理测试集上验证了它的效果，结果颇为亮眼。

---

**一、"事后诸葛亮"为什么不够用**

在AI数学推理这个领域，最直观的思路是"多写几份，选最好的"。这就像让一个班的学生同时做一道题，然后从所有答卷里挑出那份最正确的。这种方法叫做"多数投票"（Majority Voting），它的逻辑是：即便每个学生都有犯错的可能，只要大多数人得出同一个答案，那这个答案很可能是对的。

在这个思路的基础上，还有一种更精细的做法：不只是投票，而是让一个更强的"评委"来给每份答卷打分，然后选出评委认为最好的那一份。这叫做"Best-of-N选择"，相当于把投票换成了专家评审。

然而，马里兰大学的研究者发现，这两种方法都有一个共同的致命弱点——它们都是在学生"交卷之后"才开始评判的。换句话说，等评委拿到答卷的时候，学生已经把整道题从头到尾写完了。如果某个学生在第二步就走错了方向，后续所有的推理都是建立在错误基础上的，这份答卷从根本上就救不回来了。就算评委再厉害，也只能在一堆"歪楼"的答案里选个稍微不那么歪的。

研究团队用实验数据印证了这一点。在MATH这个数学难题测试集上，用大模型来给小模型的完整答案打分再挑选（Best-of-N），随着备选答案数量从8个增加到32个，准确率不升反降，从55.8%跌到了52.6%。与此同时，简单的多数投票反而从56.6%稳步爬升到63.0%。这说明问题不在于评委的眼光，而在于它被请来的时机太晚了——所有学生都已经"交卷"，错误早已无法挽回。

正因如此，研究团队意识到，要真正解决问题，必须把大模型的介入时机从"交卷后"提前到"写题中"。

---

**二、边写边纠：分块引导生成的核心思路**

既然"事后批改"行不通，研究团队设计了一种"随堂督导"机制。这个机制的运作方式可以用一个课堂场景来描述：

普通学生（小模型）在草稿纸上写题，但不是一口气写完，而是每写一小段——比如20个字——就先停下来。与此同时，这名学生同时写出八份不同的"接下来这20个字"，就像在岔路口面前列出了八条不同的路。然后，坐在一旁的学霸（大模型）不用自己写任何东西，只需要读一读这八段文字，判断哪一段最符合它的"口味"——也就是说，哪一段在它看来最像是正确推理的延续。学霸选出最好的那一段之后，普通学生就把这一段写进正式答卷，然后继续进行下一个"写20个字、停下来、让学霸评判"的循环，直到答案写完为止。

在这个过程中，大模型始终处于"只读不写"的状态，它的工作是给每一段候选文字计算一个"似然分数"（log-probability），也就是"这段文字在我看来有多像正确的推理"。这个分数越高，说明大模型越认可这段文字。

研究团队把这个"写一小段、停下来、让大模型评判"的操作单元称为"块"（Chunk），整套方法因此得名"分块引导生成"。

在评分方式上，研究团队设计了两种策略。第一种叫做"似然引导选择"（LGS），直接选择大模型评分最高的那段文字——也就是大模型自己最喜欢的那段。第二种叫做"对比引导选择"（CGS），评分方式是用大模型的评分减去小模型的评分，选择这个差值最大的那段——也就是大模型觉得好、但小模型自己觉得没那么好的那段。CGS的逻辑在于，如果小模型和大模型都同样喜欢某段文字，那大模型在这里其实没有提供什么额外信息；而当大模型的偏好与小模型明显不同时，大模型才真正发挥了"纠偏"的作用。

这个对比策略的灵感来自于自然语言处理领域的"对比解码"技术——核心思想是放大两个模型之间的差异，让更聪明的那个模型的独特判断力得以充分体现。

---

**三、为什么必须用"固定长度的块"，而不是"自然推理步骤"**

读到这里，你可能会有一个疑问：为什么要用固定长度的"块"（比如固定20个字），而不是按照解题的自然节奏来划分——比如每完成一个推理步骤就停下来评判一次？毕竟，按推理步骤来划分在直觉上更合理，也确实有其他研究（比如过程奖励模型，PRM）是这样做的。

研究团队对这个问题做了专门的实验，结论令人意外：大模型在评分时，会系统性地偏爱更长的推理步骤，哪怕已经对分数进行了"长度归一化"（也就是除以步骤的字数，尽量排除长度的影响），这个偏见依然存在。

研究团队把这个现象画成了图表：横轴是推理步骤的长度（字数），纵轴是大模型给这个步骤打的平均分。结果发现，在GSM8K、MATH和Minerva Math三个数据集上，无论是第一步还是第二步推理，步骤越长，大模型给的分就越高，而且这个趋势在归一化之后依然显著。

这意味着什么？如果用自然推理步骤来作为评分单元，大模型会倾向于选择"写得更长"的步骤，而不一定是"推理更正确"的步骤。这就像让一个老师来评选最佳作文，结果老师总是倾向于选字数更多的那篇，不管内容好不好——这显然不是我们想要的。

固定长度的块则完全解决了这个问题：在每一个决策点上，所有候选的块都有完全相同的字数，因此大模型的评分就纯粹反映了它对内容质量的判断，而不会受到长度的干扰。

---

**四、块的长度选多少最合适？实验给出了答案**

固定长度的块是个好主意，但具体应该固定多少个字（或说多少个"词元"，token）呢？研究团队对此进行了系统的消融实验，测试了10、20、50、100个词元四种长度，并把2048个词元（足够包含整个答案）作为最极端的对比——2048词元的情况本质上就等于让大模型对整个完整答案打分，也就是前面提到的"事后批改"模式。

实验结果呈现出清晰的规律：对于GSM8K和Minerva Math这两个数据集，块长度在10到20词元范围内表现最稳定，从50词元开始准确率就开始下滑；MATH这个数据集对块长度不那么敏感，在50词元时甚至能达到最高峰，但从100词元开始也明显下降。当块长度拉大到2048词元时，所有数据集、所有模型组合的准确率都出现了大幅下跌，印证了"事后批改"的失效。

基于这些发现，研究团队最终选定20词元作为默认块长度，因为它在所有数据集和所有模型组合中都表现稳定，不需要针对每个数据集单独调参。

---

**五、和"专业评分模型"比赛，不需要训练的方案胜出了**

目前AI数学推理领域有一种主流的"随写随评"方案，叫做"过程奖励模型引导搜索"（PRM Guided Search）。它的思路和分块引导生成很像——也是边写边评、边评边选，但有一个关键区别：它使用的评分工具是专门为数学推理步骤评分而训练的"过程奖励模型"（PRM），这类模型的训练需要大量带有步骤级别标注的数据，成本极高。研究团队在实验中使用的是Qwen2.5-Math-PRM-72B，这是一个有720亿参数、专门为数学推理设计的奖励模型。

为了公平比较，研究团队把"分块引导生成"和"PRM引导搜索"的介入次数对齐——也就是说，两种方法在生成一个答案的过程中，大模型介入评分的次数大体相当。在这个前提下，对比结果相当有力。

在Qwen2.5-1.5B（小模型）由Qwen2.5-32B（大模型）引导的组合上，CGS在GSM8K和MATH这两个数据集上与PRM引导搜索打成平手，差距不超过0.3个百分点；而在Minerva Math（更难的竞赛类题目）上，CGS平均领先PRM高达7.6个百分点；在AMC23（美国数学竞赛题）上领先2.2个百分点；在AIME24（美国数学邀请赛题）上领先1.1个百分点。

在Llama-3.2-1B（小模型）由Llama-3.1-70B（大模型）引导的组合上，CGS的优势更为全面：在GSM8K上平均领先PRM达6.7个百分点，Minerva Math上领先5.4个百分点，AMC23上领先7.8个百分点，AIME24上领先3.7个百分点；只有在MATH上，CGS在k=32时以46.2%比46.8%小幅落后，但三个k值的平均表现仍领先PRM达1.1个百分点。

这些结果说明，在不做任何专门训练的情况下，只需把一个现成的大模型拿来当"打分员"，就能达到甚至超越专门训练的过程奖励模型的效果。

---

**六、更大的小模型，效果依然稳健**

研究团队还做了一个扩展实验：把"普通学生"从1.5B（15亿参数）升级到7B（70亿参数），也就是用Qwen2.5-7B搭配Qwen2.5-72B作为引导大模型。这个组合中，小模型本身已经相当强大，与大模型之间的实力差距也缩小了——7B和72B的单次准确率分别是52.9%和64.1%，相差约11个百分点；而1.5B和32B之间的差距则高达约27个百分点。

即便在这种"小模型已经很强"的情况下，CGS仍然展现出了价值。它的五个数据集平均准确率达到63.7%，几乎与72B大模型单独运行的64.1%持平，并且在GSM8K（91.7% vs 90.5%）、MATH（81.8% vs 80.6%）和AMC23（65.8% vs 65.0%）上甚至超越了72B大模型的单次表现。与专门训练的PRM引导搜索相比，CGS平均落后约1.5个百分点，其中Minerva Math完全持平（63.6%），AMC23则以65.8%超过了PRM的65.0%，主要差距集中在GSM8K（91.7% vs 95.5%）。

这个结果也符合直觉：当小模型与大模型的实力差距越大，大模型的"纠偏"作用就越明显；当两者差距缩小时，大模型能贡献的增量信息就相对有限，但依然能带来正向提升。

---

**七、更短的推理路径，同样的好成绩**

研究团队还检验了一个重要问题：分块引导生成的好成绩，是不是因为它让小模型写了更多的字，从而通过"堆字数"来提升正确率？毕竟，AI推理领域有一个常见现象——让模型写得更长、思考得更细，往往能提高准确率。如果分块引导生成只是让小模型绕了更多弯路，那它的价值就要打折扣了。

实验数据给出了相反的答案。研究团队统计了Qwen2.5-1.5B搭配Qwen2.5-32B这个组合在各数据集上的平均推理长度。以GSM8K为例：小模型单独运行时平均写159个词元的推理过程，大模型单独运行只需164个词元，CGS引导下的小模型写了173个词元——这比小模型自己写的稍微多一点，但接近大模型的水平。而PRM引导搜索则写了整整311个词元，是CGS的1.8倍。

在MATH上，小模型单独运行平均652词元，CGS引导后缩短到492词元，而PRM引导则需要589词元。Minerva Math的情况类似：小模型651词元，CGS引导后524词元，PRM引导后773词元。在五个数据集上，PRM引导的推理长度始终显著长于CGS引导的推理长度，且在GSM8K上差距最大，PRM的推理长度是CGS的1.8倍。

这个发现很有意思：大模型的引导不仅提升了准确率，还顺带让小模型学会了"更直接地走向正确答案"，而不是绕远路。这与此前一些研究观察到的规律相符——更长的推理链条不一定带来更好的结果，有时候恰恰是简洁、直接的推理才是高质量的推理。

---

**八、与其他"事后挑选"方法的全面对比**

除了与PRM引导搜索对比，研究团队还把分块引导生成与多种"事后挑选"方案进行了系统比较，包括多数投票（Majority@k）、基于自信度的Best-of-N（Self-Certainty）、Borda排序法（Borda count）以及大模型直接评分的Best-of-N。

多数投票是最基本的基准——让小模型写k个答案，看哪个最终答案出现次数最多。在Qwen2.5-1.5B的组合上，k=32时多数投票在GSM8K上达到79.7%，在MATH上达到63.0%；CGS在同样的k=32时分别达到92.5%和68.8%，领先幅度显著。在Llama-3.2-1B的组合上，差距更大：多数投票在GSM8K上仅有56.0%，而CGS达到83.9%，足足领先27.9个百分点。

自信度引导的选择（Self-Certainty）表现令人失望——它在30个设置中有24个不如多数投票，说明用小模型自己的"自信程度"来挑选答案并不可靠。Borda排序法稍好，但仍然整体落后于分块引导生成。Best-of-N的表现参差不齐：在GSM8K上有一定效果，但在MATH和Minerva Math上经常不如多数投票，且在k增大时还会下滑。

研究团队还特别讨论了"Pass@k"这个指标——它衡量的是k个答案中至少有一个正确的概率，代表了事后挑选方法的理论上限。即便在理论上限的条件下，事后挑选方法也无法超越分块引导生成：在Llama-3.2-1B的组合上，CGS在GSM8K k=8时以71.3%超过了Pass@k的70.5%，在k=16时以79.3%超过了79.1%，在AIME24 k=16时以10.0%超过了7.8%。这意味着，通过在生成过程中持续干预，分块引导生成能够引导小模型走向那些它在"自由发挥"时根本不会走到的正确路径。

---

**九、研究的边界与尚待探索的方向**

研究团队在论文中坦诚地指出了这项研究的局限性，这也是理解这套方案适用范围的重要参考。

全部实验都集中在数学推理这个特定领域，是否同样适用于代码生成、常识推理或开放式问答等其他任务，目前尚不清楚。此外，实验中使用的模型组合都是"同门师兄弟"——Qwen引导Qwen，Llama引导Llama，而不同系列的大小模型之间能否有效配合，也还是未解之谜。

还有一个技术上的悬案：研究团队证明了"固定长度的块"能绕开长度偏见的问题，但如果能设计出一种更精妙的"变长评分方案"，让大模型对不同长度的文字也能公平评分，结果会不会更好？这个方向尚未被探索。

---

归根结底，马里兰大学这支团队做的事情，是给AI数学推理领域提供了一个"拿来即用"的实用方案：不需要为评分模型专门收集标注数据，不需要做任何额外训练，只需要把一个现成的大模型请来当"随堂督导"，让它在小模型写题过程中不断评判、选优，就能显著提升小模型的表现，有时甚至超越专门训练的奖励模型。

方法的核心洞见其实并不复杂：错误最应该被纠正的时机，是它刚刚发生的那一刻，而不是等到全部推理结束之后。这个道理在数学教学中早已被老师们实践了几千年，只是现在被研究团队用严谨的实验重新证明了一遍，并赋予了AI系统这种能力。

如果你对这项研究的细节感到好奇，欢迎通过arXiv:2606.01682查阅完整论文，其中包含了详细的实验数据、算法伪代码和更多边界案例的分析。

---

Q&A

Q1：分块引导生成（Chunk-Level Guided Generation）和传统的多数投票有什么本质区别？

A：传统多数投票是让小模型把整道题从头到尾写完，再从所有答案里选出现次数最多的那个，这时候如果某个答案在中途就走错了方向，已经无法补救。分块引导生成则是把写题过程切成很多小段，每写完一小段，就让大模型评判哪个候选片段最好，再继续往下写。这样一来，大模型可以在错误还没有扩散之前就把它纠正过来，而不是等全部写完才发现问题。

Q2：为什么分块引导生成不用训练专门的奖励模型？

A：因为这套方法直接利用大模型本身的"语言直觉"来评分——大模型在预训练过程中已经接触过大量数学推理内容，它能判断一段推理文字"像不像正确答案的延续"。这个判断力通过计算大模型对候选文字的"似然分数"来体现，完全不需要针对数学步骤做额外标注和训练，只需要把现成的大模型拿来打分就够了。

Q3：对比引导选择（CGS）为什么比直接用大模型打分（LGS）效果更好？

A：LGS直接选大模型最喜欢的那段文字，但这里面包含了小模型自己也喜欢的部分——大模型在那些地方其实没有提供额外的纠偏信息。CGS用大模型的评分减去小模型的评分，专门寻找那些"大模型觉得好、小模型自己没意识到好"的片段，这样才真正发挥了大模型的独特判断力，所以平均表现比LGS高出2到3个百分点。

企业官网建设流程全解析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

文章分类

标签云

相关文章

Java写的杜松子酒扑克游戏，带AI对手和52张牌GIF素材

STM32F4标准外设库深度解析：从stm32f4xx.h到启动文件，每个文件都干啥？

【CSDN AI数字营销SEO权威指南】：20年实战验证的自动优化与手动配置黄金配比法则

需要专业的网站建设服务？