马里兰大学出了个“免培训“数学AI方案
2026/6/7 9:27:02 网站建设 项目流程

这项由马里兰大学计算机科学系主导的研究于2026年6月1日发布,论文编号为arXiv:2606.01682,有兴趣深入了解的读者可通过该编号查询完整论文。

**研究概要:一道让AI更聪明的"分步批改"难题**

假设你是一位数学老师,手里有一批学生——其中有几个"学霸",也有几个"普通学生"。现在有一道复杂的数学题,你让普通学生各自写出解题过程,然后让学霸来判断哪个普通学生的答案最好。这是目前AI数学推理领域最常见的做法:让小型AI模型生成多个答案,再用大型AI模型从中挑选最佳的一个。

然而,这种"事后挑选"的方式有一个根本性的缺陷——普通学生在写题的过程中可能早早就走错了方向,等到学霸来评判的时候,所有人的答案都已经"歪了",学霸只能从一堆错误答案里选个"最不差"的,而无法真正帮到任何人。

马里兰大学的研究团队正是发现了这个问题,并提出了一个截然不同的解法:与其让学霸在最后"评卷",不如让学霸在普通学生"写题的过程中"就不断介入——每写一小段,就由学霸来判断哪个方向最好,然后继续沿这个方向写下去。

更巧妙的是,这位"学霸大模型"压根儿不需要自己提笔写字,它只需要"看",看普通学生写的每一小段,然后给出自己的评分。这样一来,既利用了大模型的判断力,又不需要为此做任何专门的训练,也不需要购置昂贵的"专业评分模型"。研究团队将这套方案命名为"分块引导生成"(Chunk-Level Guided Generation),并在五个主流数学推理测试集上验证了它的效果,结果颇为亮眼。

---

**一、"事后诸葛亮"为什么不够用**

在AI数学推理这个领域,最直观的思路是"多写几份,选最好的"。这就像让一个班的学生同时做一道题,然后从所有答卷里挑出那份最正确的。这种方法叫做"多数投票"(Majority Voting),它的逻辑是:即便每个学生都有犯错的可能,只要大多数人得出同一个答案,那这个答案很可能是对的。

在这个思路的基础上,还有一种更精细的做法:不只是投票,而是让一个更强的"评委"来给每份答卷打分,然后选出评委认为最好的那一份。这叫做"Best-of-N选择",相当于把投票换成了专家评审。

然而,马里兰大学的研究者发现,这两种方法都有一个共同的致命弱点——它们都是在学生"交卷之后"才开始评判的。换句话说,等评委拿到答卷的时候,学生已经把整道题从头到尾写完了。如果某个学生在第二步就走错了方向,后续所有的推理都是建立在错误基础上的,这份答卷从根本上就救不回来了。就算评委再厉害,也只能在一堆"歪楼"的答案里选个稍微不那么歪的。

研究团队用实验数据印证了这一点。在MATH这个数学难题测试集上,用大模型来给小模型的完整答案打分再挑选(Best-of-N),随着备选答案数量从8个增加到32个,准确率不升反降,从55.8%跌到了52.6%。与此同时,简单的多数投票反而从56.6%稳步爬升到63.0%。这说明问题不在于评委的眼光,而在于它被请来的时机太晚了——所有学生都已经"交卷",错误早已无法挽回。

正因如此,研究团队意识到,要真正解决问题,必须把大模型的介入时机从"交卷后"提前到"写题中"。

---

**二、边写边纠:分块引导生成的核心思路**

既然"事后批改"行不通,研究团队设计了一种"随堂督导"机制。这个机制的运作方式可以用一个课堂场景来描述:

普通学生(小模型)在草稿纸上写题,但不是一口气写完,而是每写一小段——比如20个字——就先停下来。与此同时,这名学生同时写出八份不同的"接下来这20个字",就像在岔路口面前列出了八条不同的路。然后,坐在一旁的学霸(大模型)不用自己写任何东西,只需要读一读这八段文字,判断哪一段最符合它的"口味"——也就是说,哪一段在它看来最像是正确推理的延续。学霸选出最好的那一段之后,普通学生就把这一段写进正式答卷,然后继续进行下一个"写20个字、停下来、让学霸评判"的循环,直到答案写完为止。

在这个过程中,大模型始终处于"只读不写"的状态,它的工作是给每一段候选文字计算一个"似然分数"(log-probability),也就是"这段文字在我看来有多像正确的推理"。这个分数越高,说明大模型越认可这段文字。

研究团队把这个"写一小段、停下来、让大模型评判"的操作单元称为"块"(Chunk),整套方法因此得名"分块引导生成"。

在评分方式上,研究团队设计了两种策略。第一种叫做"似然引导选择"(LGS),直接选择大模型评分最高的那段文字——也就是大模型自己最喜欢的那段。第二种叫做"对比引导选择"(CGS),评分方式是用大模型的评分减去小模型的评分,选择这个差值最大的那段——也就是大模型觉得好、但小模型自己觉得没那么好的那段。CGS的逻辑在于,如果小模型和大模型都同样喜欢某段文字,那大模型在这里其实没有提供什么额外信息;而当大模型的偏好与小模型明显不同时,大模型才真正发挥了"纠偏"的作用。

这个对比策略的灵感来自于自然语言处理领域的"对比解码"技术——核心思想是放大两个模型之间的差异,让更聪明的那个模型的独特判断力得以充分体现。

---

**三、为什么必须用"固定长度的块",而不是"自然推理步骤"**

读到这里,你可能会有一个疑问:为什么要用固定长度的"块"(比如固定20个字),而不是按照解题的自然节奏来划分——比如每完成一个推理步骤就停下来评判一次?毕竟,按推理步骤来划分在直觉上更合理,也确实有其他研究(比如过程奖励模型,PRM)是这样做的。

研究团队对这个问题做了专门的实验,结论令人意外:大模型在评分时,会系统性地偏爱更长的推理步骤,哪怕已经对分数进行了"长度归一化"(也就是除以步骤的字数,尽量排除长度的影响),这个偏见依然存在。

研究团队把这个现象画成了图表:横轴是推理步骤的长度(字数),纵轴是大模型给这个步骤打的平均分。结果发现,在GSM8K、MATH和Minerva Math三个数据集上,无论是第一步还是第二步推理,步骤越长,大模型给的分就越高,而且这个趋势在归一化之后依然显著。

这意味着什么?如果用自然推理步骤来作为评分单元,大模型会倾向于选择"写得更长"的步骤,而不一定是"推理更正确"的步骤。这就像让一个老师来评选最佳作文,结果老师总是倾向于选字数更多的那篇,不管内容好不好——这显然不是我们想要的。

固定长度的块则完全解决了这个问题:在每一个决策点上,所有候选的块都有完全相同的字数,因此大模型的评分就纯粹反映了它对内容质量的判断,而不会受到长度的干扰。

---

**四、块的长度选多少最合适?实验给出了答案**

固定长度的块是个好主意,但具体应该固定多少个字(或说多少个"词元",token)呢?研究团队对此进行了系统的消融实验,测试了10、20、50、100个词元四种长度,并把2048个词元(足够包含整个答案)作为最极端的对比——2048词元的情况本质上就等于让大模型对整个完整答案打分,也就是前面提到的"事后批改"模式。

实验结果呈现出清晰的规律:对于GSM8K和Minerva Math这两个数据集,块长度在10到20词元范围内表现最稳定,从50词元开始准确率就开始下滑;MATH这个数据集对块长度不那么敏感,在50词元时甚至能达到最高峰,但从100词元开始也明显下降。当块长度拉大到2048词元时,所有数据集、所有模型组合的准确率都出现了大幅下跌,印证了"事后批改"的失效。

基于这些发现,研究团队最终选定20词元作为默认块长度,因为它在所有数据集和所有模型组合中都表现稳定,不需要针对每个数据集单独调参。

---

**五、和"专业评分模型"比赛,不需要训练的方案胜出了**

目前AI数学推理领域有一种主流的"随写随评"方案,叫做"过程奖励模型引导搜索"(PRM Guided Search)。它的思路和分块引导生成很像——也是边写边评、边评边选,但有一个关键区别:它使用的评分工具是专门为数学推理步骤评分而训练的"过程奖励模型"(PRM),这类模型的训练需要大量带有步骤级别标注的数据,成本极高。研究团队在实验中使用的是Qwen2.5-Math-PRM-72B,这是一个有720亿参数、专门为数学推理设计的奖励模型。

为了公平比较,研究团队把"分块引导生成"和"PRM引导搜索"的介入次数对齐——也就是说,两种方法在生成一个答案的过程中,大模型介入评分的次数大体相当。在这个前提下,对比结果相当有力。

在Qwen2.5-1.5B(小模型)由Qwen2.5-32B(大模型)引导的组合上,CGS在GSM8K和MATH这两个数据集上与PRM引导搜索打成平手,差距不超过0.3个百分点;而在Minerva Math(更难的竞赛类题目)上,CGS平均领先PRM高达7.6个百分点;在AMC23(美国数学竞赛题)上领先2.2个百分点;在AIME24(美国数学邀请赛题)上领先1.1个百分点。

在Llama-3.2-1B(小模型)由Llama-3.1-70B(大模型)引导的组合上,CGS的优势更为全面:在GSM8K上平均领先PRM达6.7个百分点,Minerva Math上领先5.4个百分点,AMC23上领先7.8个百分点,AIME24上领先3.7个百分点;只有在MATH上,CGS在k=32时以46.2%比46.8%小幅落后,但三个k值的平均表现仍领先PRM达1.1个百分点。

这些结果说明,在不做任何专门训练的情况下,只需把一个现成的大模型拿来当"打分员",就能达到甚至超越专门训练的过程奖励模型的效果。

---

**六、更大的小模型,效果依然稳健**

研究团队还做了一个扩展实验:把"普通学生"从1.5B(15亿参数)升级到7B(70亿参数),也就是用Qwen2.5-7B搭配Qwen2.5-72B作为引导大模型。这个组合中,小模型本身已经相当强大,与大模型之间的实力差距也缩小了——7B和72B的单次准确率分别是52.9%和64.1%,相差约11个百分点;而1.5B和32B之间的差距则高达约27个百分点。

即便在这种"小模型已经很强"的情况下,CGS仍然展现出了价值。它的五个数据集平均准确率达到63.7%,几乎与72B大模型单独运行的64.1%持平,并且在GSM8K(91.7% vs 90.5%)、MATH(81.8% vs 80.6%)和AMC23(65.8% vs 65.0%)上甚至超越了72B大模型的单次表现。与专门训练的PRM引导搜索相比,CGS平均落后约1.5个百分点,其中Minerva Math完全持平(63.6%),AMC23则以65.8%超过了PRM的65.0%,主要差距集中在GSM8K(91.7% vs 95.5%)。

这个结果也符合直觉:当小模型与大模型的实力差距越大,大模型的"纠偏"作用就越明显;当两者差距缩小时,大模型能贡献的增量信息就相对有限,但依然能带来正向提升。

---

**七、更短的推理路径,同样的好成绩**

研究团队还检验了一个重要问题:分块引导生成的好成绩,是不是因为它让小模型写了更多的字,从而通过"堆字数"来提升正确率?毕竟,AI推理领域有一个常见现象——让模型写得更长、思考得更细,往往能提高准确率。如果分块引导生成只是让小模型绕了更多弯路,那它的价值就要打折扣了。

实验数据给出了相反的答案。研究团队统计了Qwen2.5-1.5B搭配Qwen2.5-32B这个组合在各数据集上的平均推理长度。以GSM8K为例:小模型单独运行时平均写159个词元的推理过程,大模型单独运行只需164个词元,CGS引导下的小模型写了173个词元——这比小模型自己写的稍微多一点,但接近大模型的水平。而PRM引导搜索则写了整整311个词元,是CGS的1.8倍。

在MATH上,小模型单独运行平均652词元,CGS引导后缩短到492词元,而PRM引导则需要589词元。Minerva Math的情况类似:小模型651词元,CGS引导后524词元,PRM引导后773词元。在五个数据集上,PRM引导的推理长度始终显著长于CGS引导的推理长度,且在GSM8K上差距最大,PRM的推理长度是CGS的1.8倍。

这个发现很有意思:大模型的引导不仅提升了准确率,还顺带让小模型学会了"更直接地走向正确答案",而不是绕远路。这与此前一些研究观察到的规律相符——更长的推理链条不一定带来更好的结果,有时候恰恰是简洁、直接的推理才是高质量的推理。

---

**八、与其他"事后挑选"方法的全面对比**

除了与PRM引导搜索对比,研究团队还把分块引导生成与多种"事后挑选"方案进行了系统比较,包括多数投票(Majority@k)、基于自信度的Best-of-N(Self-Certainty)、Borda排序法(Borda count)以及大模型直接评分的Best-of-N。

多数投票是最基本的基准——让小模型写k个答案,看哪个最终答案出现次数最多。在Qwen2.5-1.5B的组合上,k=32时多数投票在GSM8K上达到79.7%,在MATH上达到63.0%;CGS在同样的k=32时分别达到92.5%和68.8%,领先幅度显著。在Llama-3.2-1B的组合上,差距更大:多数投票在GSM8K上仅有56.0%,而CGS达到83.9%,足足领先27.9个百分点。

自信度引导的选择(Self-Certainty)表现令人失望——它在30个设置中有24个不如多数投票,说明用小模型自己的"自信程度"来挑选答案并不可靠。Borda排序法稍好,但仍然整体落后于分块引导生成。Best-of-N的表现参差不齐:在GSM8K上有一定效果,但在MATH和Minerva Math上经常不如多数投票,且在k增大时还会下滑。

研究团队还特别讨论了"Pass@k"这个指标——它衡量的是k个答案中至少有一个正确的概率,代表了事后挑选方法的理论上限。即便在理论上限的条件下,事后挑选方法也无法超越分块引导生成:在Llama-3.2-1B的组合上,CGS在GSM8K k=8时以71.3%超过了Pass@k的70.5%,在k=16时以79.3%超过了79.1%,在AIME24 k=16时以10.0%超过了7.8%。这意味着,通过在生成过程中持续干预,分块引导生成能够引导小模型走向那些它在"自由发挥"时根本不会走到的正确路径。

---

**九、研究的边界与尚待探索的方向**

研究团队在论文中坦诚地指出了这项研究的局限性,这也是理解这套方案适用范围的重要参考。

全部实验都集中在数学推理这个特定领域,是否同样适用于代码生成、常识推理或开放式问答等其他任务,目前尚不清楚。此外,实验中使用的模型组合都是"同门师兄弟"——Qwen引导Qwen,Llama引导Llama,而不同系列的大小模型之间能否有效配合,也还是未解之谜。

还有一个技术上的悬案:研究团队证明了"固定长度的块"能绕开长度偏见的问题,但如果能设计出一种更精妙的"变长评分方案",让大模型对不同长度的文字也能公平评分,结果会不会更好?这个方向尚未被探索。

---

归根结底,马里兰大学这支团队做的事情,是给AI数学推理领域提供了一个"拿来即用"的实用方案:不需要为评分模型专门收集标注数据,不需要做任何额外训练,只需要把一个现成的大模型请来当"随堂督导",让它在小模型写题过程中不断评判、选优,就能显著提升小模型的表现,有时甚至超越专门训练的奖励模型。

方法的核心洞见其实并不复杂:错误最应该被纠正的时机,是它刚刚发生的那一刻,而不是等到全部推理结束之后。这个道理在数学教学中早已被老师们实践了几千年,只是现在被研究团队用严谨的实验重新证明了一遍,并赋予了AI系统这种能力。

如果你对这项研究的细节感到好奇,欢迎通过arXiv:2606.01682查阅完整论文,其中包含了详细的实验数据、算法伪代码和更多边界案例的分析。

---

Q&A

Q1:分块引导生成(Chunk-Level Guided Generation)和传统的多数投票有什么本质区别?

A:传统多数投票是让小模型把整道题从头到尾写完,再从所有答案里选出现次数最多的那个,这时候如果某个答案在中途就走错了方向,已经无法补救。分块引导生成则是把写题过程切成很多小段,每写完一小段,就让大模型评判哪个候选片段最好,再继续往下写。这样一来,大模型可以在错误还没有扩散之前就把它纠正过来,而不是等全部写完才发现问题。

Q2:为什么分块引导生成不用训练专门的奖励模型?

A:因为这套方法直接利用大模型本身的"语言直觉"来评分——大模型在预训练过程中已经接触过大量数学推理内容,它能判断一段推理文字"像不像正确答案的延续"。这个判断力通过计算大模型对候选文字的"似然分数"来体现,完全不需要针对数学步骤做额外标注和训练,只需要把现成的大模型拿来打分就够了。

Q3:对比引导选择(CGS)为什么比直接用大模型打分(LGS)效果更好?

A:LGS直接选大模型最喜欢的那段文字,但这里面包含了小模型自己也喜欢的部分——大模型在那些地方其实没有提供额外的纠偏信息。CGS用大模型的评分减去小模型的评分,专门寻找那些"大模型觉得好、小模型自己没意识到好"的片段,这样才真正发挥了大模型的独特判断力,所以平均表现比LGS高出2到3个百分点。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询