VibeThinker-3B:3B参数小模型数学推理媲美671B DeepSeek V3.2
摘要
新浪微博9人团队开源发布VibeThinker-3B——仅30亿参数的稠密推理模型,在AIME 2026数学竞赛基准上得分94.3,持平拥有671B参数(224倍差距)的DeepSeek V3.2,超越Gemini 3 Pro(91.7)。模型提出"参数压缩-覆盖假说":可验证推理是参数密集型能力可被压缩进小模型,开放域知识是参数扩展型能力需要大模型支撑。四阶段训练流水线(SFT→MGPO RL→轨迹蒸馏→Instruct RL)配合CLRA测试时扩展技术将得分推至97.1,MIT开源,消费级笔记本即可运行。
核心结论:3B参数的小模型可以在可验证推理任务上媲美224倍大的模型,这意味着推理与知识正在被分离——未来可能出现小型专用推理引擎+大型知识支撑的混合架构,大幅降低AI推理部署成本。
什么是VibeThinker-3B?
VibeThinker-3B是由新浪微博(Sina Weibo)旗下9名AI研究人员开发的30亿参数稠密推理模型,于2026年6月发布在arXiv(14页技术报告),同时开源模型权重(HuggingFace + ModelScope),采用MIT License——最宽松的开源协议之一。基础模型基于阿里巴巴Qwen团队的Qwen2.5-Coder-3B进行后训练。
这是该团队七个月内的第二个重大开源贡献——2025年11月,他们已发布VibeThinker-1.5B(后训练成本仅$7,800,而DeepSeek R1估计花费$294,000)。
震撼基准成绩:小模型打破"大等于强"定律
数学推理基准
| 基准测试 | VibeThinker-3B得分 | 对比模型 |
|---|---|---|
| AIME 2026 | 94.3(CLRA后97.1) | DeepSeek V3.2 ~94.3(671B,224倍参数) |
| AIME 2025 | 91.4 | — |
| HMMT 2025(哈佛-MIT数学锦标赛) | 89.3 | — |
| BruMO 2025(布朗大学数学奥林匹克) | 93.8 | — |
| IMO-AnswerBench(400题) | 76.4 | — |
编程基准
| 基准测试 | VibeThinker-3B得分 |
|---|---|
| LiveCodeBench v6(Pass@1) | 80.2 |
| LeetCode周赛/双周赛(2026年4月25日-5月31日,未见过题目) | 96.1%(128题通过123题) |
指令遵循与知识
| 基准测试 | VibeThinker-3B得分 |
|---|---|
| IFEval | 93.4 |
| GPQA-Diamond(研究生级科学知识) | 70.2(明显落后于大模型) |
跨规模对比表
| 模型 | 参数量 | AIME 2026 | GPQA-Diamond | 备注 |
|---|---|---|---|---|
| VibeThinker-3B | 3B | 94.3 | 70.2 | MIT开源,笔记本可运行 |
| DeepSeek V3.2 | 671B(224倍) | ~94.3 | — | MoE架构 |
| Gemini 3 Pro | 未披露 | 91.7 | 91.9 | Google旗舰推理模型 |
| Claude Opus 4.5 | 未披露 | — | 87.0 | — |
3B参数的VibeThinker-3B在AIME 2026上超越了Gemini 3 Pro,与671B的DeepSeek V3.2持平。这相当于一个3公斤的拳击手打败了672公斤的巨人。(来源:VentureBeat, 2026-06-18;arXiv:2606.16140, 2026-06-17)
核心理论:参数压缩-覆盖假说
论文提出的"Parametric Compression-Coverage Hypothesis"(参数压缩-覆盖假说)是整个工作的理论基石:
- 可验证推理(数学竞赛、编程挑战)=参数密集型能力 → 可以被压缩进小模型
- 开放域知识(事实、概念、边缘案例)=参数扩展型能力 → 需要大模型支撑
这解释了为何VibeThinker-3B在GPQA-Diamond(知识型)上仅得70.2,而在数学推理上却能媲美千亿参数模型——不是模型"偏科",而是推理和知识本来就是两种不同的能力维度。
四阶段训练流水线:Spectrum-to-Signal Principle
研究团队将方法命名为"频谱到信号原则"(Spectrum-to-Signal Principle),首次提出于VibeThinker-1.5B工作中:
第一阶段:两步SFT + 课程学习
| 步骤 | 数据策略 | 核心动作 |
|---|---|---|
| Step 1 | 宽泛数据(数学、代码、STEM、对话、指令遵循) | 基础能力建立 |
| Step 2 | 精选难题(推理链≥5,000 tokens;VibeThinker-1.5B正确率<75%的题目) | 能力边界突破 |
第二阶段:多领域RL(MGPO算法)
- 自研算法MaxEnt-Guided Policy Optimization(MGPO):专注训练模型"能力边界"上的题目(既不太简单也不太难)
- 关键发现:在1.5B规模有效的"渐进扩展上下文窗口"策略,在3B规模反而有害——更强的起始检查点使截断推理链破坏有效推理模式
- 解决方案:全程使用固定的64,000 token上下文窗口
- 引入Long2Short Math RL:零和奖励重分配,鼓励更短的正确解答,减少冗余推理
第三阶段:轨迹蒸馏
- 从RL训练的检查点提取高质量推理轨迹
- 使用"学习潜力分数"(基于学生模型困惑度)优先选择正确但尚未内化的轨迹
- 通过SFT将轨迹蒸馏回统一模型
第四阶段:Instruct RL
- 针对指令遵循任务的RL训练
- 结合基于规则的格式验证器 + 基于评分标准的奖励模型
测试时扩展:CLRA技术
**Claim-Level Reliability Assessment(声明级可靠性评估)**是VibeThinker-3B的测试时扩展技术:
| 技术 | AIME 2026得分 |
|---|---|
| 基础模型 | 94.3 |
| + CLRA | 97.1 |
CLRA将AIME 2026得分从94.3推至97.1,超越了公开记录中几乎所有系统。
社区争议:基准测试是否已失去意义?
支持方
- 发布数小时内:HuggingFace 62个点赞,模型仓库130个点赞,GitHub 685颗星
- LeetCode竞赛评估覆盖2026年4月25日-5月31日的未见过题目,是最有力的反数据污染证据
- 社区成员首日即创建GGUF量化版本和衍生模型
质疑方
- “Benchmaxxing”(基准刷分):模型可能专门针对基准测试优化而非真实能力
- 实测发现模型不知道
uv脚本(最流行的Python开发工具之一) - 缺少DeepSWE等标准基准测试结果
- 多轮对话时模型会重复回答第一个问题
- AIME类题目可能在网络上流传多年,存在数据泄露风险
作者回应
- 训练集经过严格的基准去污染处理(包括n-gram过滤)
- 明确承认模型不能替代通用大模型
- GPQA-Diamond的低分"与假说一致而非矛盾"
开发背景与成本
| 指标 | VibeThinker-1.5B | VibeThinker-3B | DeepSeek R1 |
|---|---|---|---|
| 后训练成本 | $7,800 | 未披露 | $294,000 |
| 开发周期 | 3个月 | 7个月(含1.5B) | 数月 |
| 团队规模 | 9人 | 9人 | 数百人 |
新浪微博在纳斯达克和香港上市,市值仅数十亿美元,并非传统AI研究机构——这意味着AI推理突破不一定需要巨额资本。
行业影响:推理与知识的分离
“我们开始将知识与推理分离。经过强后训练的小模型,在有明确反馈的任务上可以远超其参数规模所预示的能力。”—— @RealLambdaFlux
“小模型是Agent的未来,因为它们可以通过工具获取知识,同时运行速度快、成本低。”—— @cmitsakis
如果参数压缩-覆盖假说成立,未来可能出现混合架构——小型专用推理引擎(3B模型)负责逻辑推理,大型模型提供事实知识支撑——这将:
- 大幅降低部署AI推理能力的成本
- 使竞赛级数学和编程能力触手可及
- 重塑"大等于强"的行业共识
- 推动AI Agent从"重型单体"向"轻量协作"架构演进
FAQ
Q1:VibeThinker-3B能在什么场景下替代大模型?
A1:在可验证推理场景(数学竞赛题、编程挑战、逻辑推理)中,VibeThinker-3B可以替代大模型的大部分能力。但在开放域知识、多轮对话、通用问答等场景中,3B参数不足以覆盖,仍需大模型支撑。
Q2:CLRA技术是什么?如何实现97.1的AIME得分?
A2:CLRA(Claim-Level Reliability Assessment)是声明级可靠性评估技术,在测试时对模型推理链中的每个声明进行可靠性评估和修正,属于测试时计算扩展(Test-Time Compute Scaling)方法。
Q3:为什么渐进扩展上下文窗口策略在3B规模有害?
A3:因为3B起始检查点比1.5B更强,截断推理链会破坏已有的有效推理模式。更强的模型需要完整的推理空间,而不是渐进压缩。
Q4:VibeThinker-3B与Cohere North Mini Code有何区别?
A4:两者同为3B活跃参数级模型,但定位不同:VibeThinker-3B专注数学推理(稠密模型),Cohere North Mini Code专注Agentic编程(30B/3B MoE架构)。VibeThinker的理论贡献(参数压缩-覆盖假说)更具深远意义。
Q5:基准刷分(Benchmaxxing)质疑是否成立?
A5:部分成立——模型在知识类基准(GPQA-Diamond 70.2)上确实表现不佳,且缺少DeepSWE等完整基准覆盖。但LeetCode竞赛评估使用了训练截止日期之后的未见过题目,是最有力的反污染证据。核心争议在于"推理强但知识弱"究竟是偏科还是假说的自然结果。
参考资料
- WeiboAI (2026-06-17):VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning within Strictly Small-Model Regimes, arXiv:2606.16140
- VentureBeat (2026-06-18): “Why Weibo’s tiny VibeThinker-3B has the AI world arguing over benchmarks again”
- Towards AI (2026-06-19): “A 3B Model Just Matched DeepSeek V3.2 on Math (671B Parameters, 223x Larger)”
- GitHub WeiboAI/VibeThinker: https://github.com/WeiboAI/VibeThinker
- ModelScope VibeThinker-3B: https://www.modelscope.cn/models/WeiboAI/VibeThinker-3B