063、训练中断恢复与断点续训:最好用的 checkpoint 管理与恢复机制
2026/6/3 10:58:07 网站建设 项目流程

063、训练中断恢复与断点续训:最好用的 checkpoint 管理与恢复机制

一、深夜的崩溃:训练到第47个epoch,服务器重启了

去年做YOLOv6工业检测项目,模型在2080Ti上跑了整整两天,loss曲线已经收敛到0.03,眼看再等8小时就能出最终权重。凌晨三点,运维通知机房空调故障,服务器强制重启。第二天到工位,发现训练日志停在epoch 47,weights文件夹里只有epoch_46.pt——但加载这个权重继续训练,loss直接跳到0.15,mAP从0.89掉到0.72,等于白跑了两天。

后来排查发现,我保存的checkpoint只存了模型权重,优化器状态、学习率调度器、数据加载器的迭代位置全丢了。这就是典型的“半残废”断点续训。今天这篇笔记,我把踩过的坑和最终沉淀的checkpoint管理方案全写出来,YOLOv8/v11/v6通用,改几行代码就能用。

二、别这样写:只存model.state_dict()

很多教程教你的保存方式是这样的:

torch.save(model.state_dict

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询