1.6 YOLO 输入处理与数据工程中的持续学习:数据流管理与灾难性遗忘防护
1.6.1 核心张力:实时检测流水线与持续学习的天然冲突
1.6.1.1 为什么 YOLO 的静态假设在真实场景中必然崩溃
想象一个分拣流水线。在标准 YOLO 训练场景中,这条流水线的输入端一次性倾倒进十万张图片,模型在静态数据集上反复扫描,直到学会所有类别的模式。然而,真实世界的检测系统——无论是自动驾驶摄像头、工业质检相机还是零售监控——面对的是一条永不停止的传送带:今天送来的是"行人"和"汽车",下个月新增"共享电动车",半年后法规变化要求识别"低速无人配送车"。
核心结论:YOLO 的原生设计建立在"所有数据一次性可用"的静态假设上。当数据以流式、增量、不可回放的方式到达时,如果不重构输入处理与数据工程层,模型会在接触新类别的第一个 epoch 内就丢失旧类别的检测能力——这就是灾难性遗忘在检测任务中的爆发式表现。citeweb_search:3#0web_search:3#1
实现细节:灾难性遗忘在 YOLO 中比分类任务更凶险,原因有三重结构性因素。第一,YOLO 是单阶段密集预测器,每个网格单元同时承担分类和回归职责,新类别的梯度更新会同时覆盖旧类别的空间定位参数。第二,YOLO 的标签分配机制(Task-Aligned Assigner 或 SimOTA)在增量场景下会产生"缺失标注"问题——新任务图像中可能包含旧类别实例,但这些实例未被标注,模型被迫将其学习为"