FlowEQ变换:融合光流与轮廓增强的视频行为识别技术解析
2026/5/27 0:08:50
paper: https://arxiv.org/abs/2511.18286
code: https://github.com/GuanRunwei/RS-VQA
目前的路侧感知系统(如交通摄像头监控)主要侧重于实例级(Instance-level)感知,例如检测车辆、跟踪轨迹或预测交通流 。
然而,这些系统存在以下局限性:
缺乏交互与推理:难以通过自然语言与人类交互,也无法对交通行为进行上下文推理(例如判断某种行为是否违规)。
语义鸿沟:现有的基准测试多关注目标定位(坐标框),但忽略了隐含的交通规则、因果关系和行为逻辑 。
可解释性差:在复杂环境下缺乏处理未知事件的灵活性和解释能力 。
该研究旨在将交通智能的评估从单纯的“感知识别”转向“受规则约束的认知推理”。通过构建一个大规模、富含上下文的路侧场景 VQA 数据集,并开发与之配套的多模态大语言模型(MLLM),使系统能够像人类一样理解交通场景、判断合法性并进行常识性推理。
研究团队构建了RoadSceneVQA,这是首个从路侧视角出发、聚焦规则意识和认知推理的基准数据集 。