Claude Opus 4.8刷榜ARC-AGI-3，1.5%得分成新SOTA，未知场景适应能力成AI新战场？-港品优选

Claude Opus 4.8登顶ARC - AGI - 3榜单，高成本换来高分数

就在刚刚，Claude Opus 4.8（High）拿下ARC - AGI - 3榜单榜首，RHAE得分1.5%，是第二名的3倍。不过，跑一次评测要花费1万美元。此前纪录保持者Opus 4.6（Max）得分0.5%，GPT - 5.5更惨，只有0.4%。

ARC - AGI - 3：AI的“地狱级”考试，考验Agent能力

ARC - AGI - 3与之前的ARC - AGI - 1和2不同，前两者是有标准答案的填空题，而ARC - AGI - 3是将AI扔进一个陌生游戏，无说明、无提示，考验其自主探索、推断规则和规划路线的能力，即Agent能力。测试发布后，前沿AI得分归零。

Opus 4.8升级押宝Agent能力，与GPT - 5.5拉开差距

Opus 4.8在大多数传统benchmark上是在Opus 4.7基础上小幅涨分，但在所有和Agent相关的评测上表现突变。如SWE - bench Pro从64.3%涨到69.2%，领先GPT - 5.5超10个百分点；Online - Mind2Web拿下84%，超过Opus 4.7和GPT - 5.5。而GPT - 5.5在静态推理上很强，但在复杂环境持续操作任务中掉速。

Opus 4.8解题：抽象层级提升带来进步，也有新bug

ARC Prize官方给出Opus 4.8解题过程，其相比Opus 4.7提升了抽象层级，从逐像素处理画面到识别出物体和系统。在ar25环境中5帧推导出镜像反射规则，24步通关第一关；lp85环境表现亮眼。但在dc22环境第4关锁死在错误子目标上，出现新的失败模式。

ARC - AGI系列预言AI主战场，未来竞赛核心转向未知场景适应

ARC - AGI每换一代都精准预言下一波AI主战场，ARC - AGI - 1预言推理革命，ARC - AGI - 2预言编程Agent爆发，ARC - AGI - 3测试交互式环境自主探索与适应能力。接下来竞赛核心可能是谁能在未知世界更快搞清状况。编辑观点：Claude Opus 4.8在ARC - AGI - 3测试中展现出强大的未知场景适应能力，这或成未来AI竞争关键，GPT - 5.5需在该领域发力，否则可能在新竞赛中落后。

企业官网建设流程全解析

Claude Opus 4.8登顶ARC - AGI - 3榜单，高成本换来高分数

ARC - AGI - 3：AI的“地狱级”考试，考验Agent能力

Opus 4.8升级押宝Agent能力，与GPT - 5.5拉开差距

Opus 4.8解题：抽象层级提升带来进步，也有新bug

ARC - AGI系列预言AI主战场，未来竞赛核心转向未知场景适应

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

Claude Opus 4.8登顶ARC - AGI - 3榜单，高成本换来高分数

ARC - AGI - 3：AI的“地狱级”考试，考验Agent能力

Opus 4.8升级押宝Agent能力，与GPT - 5.5拉开差距

Opus 4.8解题：抽象层级提升带来进步，也有新bug

ARC - AGI系列预言AI主战场，未来竞赛核心转向未知场景适应

热门文章

文章分类

标签云

相关文章

如何高效获取Grammarly Premium高级版：autosearch-grammarly-premium-cookie实战解决方案

避坑指南：ENVI处理不同分辨率高光谱影像时，配准与反射率校正的那些‘雷’

Arduino光敏南瓜灯：PWM调光与LDR环境感知的嵌入式实践

需要专业的网站建设服务？