每日 AI 评测速递来啦(12.15)
2026/6/7 14:13:01 网站建设 项目流程

司南·Daily Benchmark 专区今日上新!

Bench-Push

首个面向基于推操作的移动机器人导航与操作任务的统一评测基准。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2011736

Complex-PIE-Bench

一个复杂图像编辑评测基准,用于系统评估复杂编辑场景下的模型能力。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2011395

UFVideo-Bench

一个多粒度视频理解评测基准,包含全局、像素和时间尺度的协同任务,用于系统评估视频大语言模型在多粒度协作理解能力上的表现。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2011336

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询