这次MiniMax M3出来,我连夜测试了几个超级大的项目场景,都是小时级别的任务,效果有点出乎意料。
从M2到M3,这应该是MiniMax推理模型一次很大的代际更新,我记得去年10月初代M2出来,当时MoE成本优势直接把token带进了白菜价,也是首次开始从大语言模型转向agent生产力,导致在OpenClaw模型token榜单上一度登顶。
后来几乎每两个月迭代一个版本,从2.1、2.5、到2.7,但都是2.X系列。
一直到现在M3,我能看到的是MiniMax一直在疯狂地去强化模型的agent能力,几乎把生产力当作第一要义。
因为这个赛道实在是卷,GPT-5.3-Codex短短几个月得到了远超Claude Code的追捧,所以这一次M3的进化也显得非常务实和硬核。
首先是大家一直在提的MSA,MiniMax自研的稀疏注意力架构,重点不在于自研,而是它把1M上下文从噱头变成了实用的功能。
为什么说之前一百万上下文只是挂在天上的参数,用着不爽呢?因为在超长上下文推理场景里,很多模型会变得非常慢,狂吃token,而且极其容易出现胡言乱语的情况,也就是AI幻觉。
稀疏注意力(Sparse Attention)其实早就有了,国内国外主流模型一直在做,不过传统SA是全注意力机制,读百万字小说会逐字通读,虽然准确,但很慢,非常消耗显存,长文本计算复杂度高的离谱。
MiniMax这次做了产品的创新,路还是老路,但换了辆8缸的新车,仍然采用SA,但他们在计算前加了一个“预筛选”的网眼,通过KV-Block(键值块)把不重要的废话直接过滤掉。
简单点说,MSA把一本百万字的书进行了分块,按目录阅读,抓住重点章节,这样大幅降低了计算量,还不容易失忆出错。
我看到官方数据说,在100万上下文场景下,M3的token计算量只有上一代的1/20,解码速度快了15倍。
举个简单的例子,我让M3去review Python数据处理库pandas的代码,这是一个非常庞大的项目,几万个文件,几十万行代码,而且结构复杂。
这个任务看起来复杂,其实一点也不简单。M3没有直接一股脑去读github的仓库文件,而是先制定打法策略,拉起了队伍,通过数据结构、IO、GroupBy、内存管理、扩展集成这5个不同角度去解析,然后汇总。
这其实就是MSA在发挥作用,通过长程记忆和高效注意力分配聚焦关键信息,并进行任务规划。
有意思的是,在Agent执行过程中,M3就像工程队领头一样指挥协调这5个模块干活,还把施工过程记录的清清楚楚。
最终,跑了一个小时,M3产出了6份优化报告,其中5份分模块的,1份汇总报告。
除了MSA,另一点值得讲的是M3的Agent能力,它在底层做了优化设计,比如说他们构建了一个“交互式用户模拟器”框架,相当于虚拟一个技术大佬,进行陪伴式开发,可以进行多轮协作、改需求、给反馈,
确实是这样,Vibe Coding不是线形任务,一条prompt跑到底,需要随时修改、优化、反馈,最终才能拿到像样的产品。
在SWE-Bench Pro上,M3超过了GPT-5.5和Gemini 3.1 Pro,非常接近Opus 4.7的水平,在BrowseComp智能体评测中,M3得分甚至超越了Opus 4.7。
我拿了一个比较复杂的场景去测试M3的编程Agent效果,要求根据车企线索接入流程图,开发接口系统,并输出管理UI和接口文档,由于汽车行业线索来源多达几十个渠道,且存在实时清洗和高并发的情况,所以这个接口系统并不好开发。
提示语和流程图如下:
理解图中内容,设计一套部署在本地服务器的API接口系统,能适配不同平台/不同方式线索接入,且保证API的稳定性、安全性、 鲁棒性。
产出物:
1、API接口系统
2、线索接入管理UI界面
3、接口文档
我是在Trae上配置的M3,Claude Code、Codex也都可以,M3在开发过程中不断的review代码过程,你可以去更改方案,进行协同开发。
当然我在这个过程中发现M3有时候会陷入思维死循环,验证很多次当前方案不行了,却一直不肯换方向,比如python依赖安装,pip损坏安装很多次不行,一直在尝试安装。
当然最终这个bug还是修复了,我拿到了三个文件,完整的API接口系统、UI管理界面、API文档。
其中API接口系统支持不同渠道、不同形式的数据接入,且处理了高并发、错误处理等情况。
后台的UI管理系统,支持线索流转路径,聚合分析。
API接口文档,非常详细。
这个任务不仅依赖M3的代码Agent能力,还需要有多模态的智能识别,因为我只是提交了流程图,它需要通过识别流程图的关键节点来进行开发。
与此同时,我还在测试了M3的网页生成能力,当然我想要的不是那种炫酷的充满设计感,但毫无实际用途的网页,而是能通过搜集数据和信息解决实际问题的实用型网页。
比如说我最近想买车,在MiniMax Code中扔了一张最新的新能源车销量排名图,让它给我输出选车报告,必须得有真实的用户好差评作为参考。
M3就会通过采集Agent努力的从各大平台采集用户声音,补充信息源。
最终它生成一个图文并茂的HTML网页,非常清晰。
我比较喜欢这样的呈现方式,以前做起来很麻烦,但现在扔给AI几分钟能出结果。
总的来说,MiniMax M3这次下了蛮大的决心,想要在Agent中杀出重围,找到自己的一块领地,但可能并不容易,Opus4.7、GPT5.5两座大山在前,而且有Claude Code和Codex这样的顶级框架,但是这一次M3确实已经在试探着去接近,我觉得是好事。
我发现M3发布后其实大家对于token plan的关注度其实已经高于模型本身了,不管国外还是国内都是有较强价格竞争力的,看来大家还是想着怎么用最低的成本做更多的事,这是一个综合ROI的考量,投票权在用户手里。