Claude Opus 4.8刷榜ARC-AGI-3,1.5%得分成新SOTA,未知场景适应能力成AI新战场?
2026/6/4 19:49:59 网站建设 项目流程

Claude Opus 4.8登顶ARC - AGI - 3榜单,高成本换来高分数

就在刚刚,Claude Opus 4.8(High)拿下ARC - AGI - 3榜单榜首,RHAE得分1.5%,是第二名的3倍。不过,跑一次评测要花费1万美元。此前纪录保持者Opus 4.6(Max)得分0.5%,GPT - 5.5更惨,只有0.4%。

ARC - AGI - 3:AI的“地狱级”考试,考验Agent能力

ARC - AGI - 3与之前的ARC - AGI - 1和2不同,前两者是有标准答案的填空题,而ARC - AGI - 3是将AI扔进一个陌生游戏,无说明、无提示,考验其自主探索、推断规则和规划路线的能力,即Agent能力。测试发布后,前沿AI得分归零。

Opus 4.8升级押宝Agent能力,与GPT - 5.5拉开差距

Opus 4.8在大多数传统benchmark上是在Opus 4.7基础上小幅涨分,但在所有和Agent相关的评测上表现突变。如SWE - bench Pro从64.3%涨到69.2%,领先GPT - 5.5超10个百分点;Online - Mind2Web拿下84%,超过Opus 4.7和GPT - 5.5。而GPT - 5.5在静态推理上很强,但在复杂环境持续操作任务中掉速。

Opus 4.8解题:抽象层级提升带来进步,也有新bug

ARC Prize官方给出Opus 4.8解题过程,其相比Opus 4.7提升了抽象层级,从逐像素处理画面到识别出物体和系统。在ar25环境中5帧推导出镜像反射规则,24步通关第一关;lp85环境表现亮眼。但在dc22环境第4关锁死在错误子目标上,出现新的失败模式。

ARC - AGI系列预言AI主战场,未来竞赛核心转向未知场景适应

ARC - AGI每换一代都精准预言下一波AI主战场,ARC - AGI - 1预言推理革命,ARC - AGI - 2预言编程Agent爆发,ARC - AGI - 3测试交互式环境自主探索与适应能力。接下来竞赛核心可能是谁能在未知世界更快搞清状况。编辑观点:Claude Opus 4.8在ARC - AGI - 3测试中展现出强大的未知场景适应能力,这或成未来AI竞争关键,GPT - 5.5需在该领域发力,否则可能在新竞赛中落后。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询