从《Two Heroes》到代码英雄:用Python爬虫分析可可英语学习笔记的文本情感
2026/6/7 14:07:10
司南·Daily Benchmark 专区今日上新!
Bench-Push
首个面向基于推操作的移动机器人导航与操作任务的统一评测基准。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2011736
Complex-PIE-Bench
一个复杂图像编辑评测基准,用于系统评估复杂编辑场景下的模型能力。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2011395
UFVideo-Bench
一个多粒度视频理解评测基准,包含全局、像素和时间尺度的协同任务,用于系统评估视频大语言模型在多粒度协作理解能力上的表现。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2011336