【2026 AAAI】RoadSceneVQA:Benchmarking Visual Question Answering in Roadside Perception Systems for IT-港品优选

paper: https://arxiv.org/abs/2511.18286
code: https://github.com/GuanRunwei/RS-VQA

核心问题

目前的路侧感知系统（如交通摄像头监控）主要侧重于实例级（Instance-level）感知，例如检测车辆、跟踪轨迹或预测交通流。
然而，这些系统存在以下局限性：

该研究旨在将交通智能的评估从单纯的“感知识别”转向“受规则约束的认知推理”。通过构建一个大规模、富含上下文的路侧场景 VQA 数据集，并开发与之配套的多模态大语言模型（MLLM），使系统能够像人类一样理解交通场景、判断合法性并进行常识性推理。

研究团队构建了RoadSceneVQA，这是首个从路侧视角出发、聚焦规则意识和认知推理的基准数据集。