每日 AI 评测速递来啦(12.18)
2026/6/1 1:21:30 网站建设 项目流程

司南·Daily Benchmark 专区今日上新!

RE2-Bench
一个面向真实世界复杂代码的推理评测基准,包含 1,101 个代码推理问题,其中 195 个问题来自成熟的真实世界项目。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2014917

ViF-Bench
一个面向可解释 AI 生成视频检测的评测基准,包含 3,000 个由十余种最先进视频生成模型产生的高质量样本。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2015693

TimeLens-Bench
一个面向视频时间定位(VTG)的高质量评测基准,通过对多个主流数据集进行严格标准下的重新标注,用于可靠评估多模态大模型的时间定位能力。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2014698

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询