每日 AI 评测速递来啦（12.15）-港品优选

每日 AI 评测速递来啦（12.15）

2026/6/7 14:13:01 网站建设项目流程

司南·Daily Benchmark 专区今日上新！

Bench-Push

首个面向基于推操作的移动机器人导航与操作任务的统一评测基准。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2011736

Complex-PIE-Bench

一个复杂图像编辑评测基准，用于系统评估复杂编辑场景下的模型能力。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2011395

UFVideo-Bench

一个多粒度视频理解评测基准，包含全局、像素和时间尺度的协同任务，用于系统评估视频大语言模型在多粒度协作理解能力上的表现。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2011336

需要专业的网站建设服务？

联系我们获取免费的网站建设咨询和方案报价，让我们帮助您实现业务目标