使用Qwen2.5-7B训练自己的本地中文医疗大模型
2026/6/20 17:41:54 网站建设 项目流程

第一版训练效果分析

  • 数据质量问题(最主要原因)

    • 如果你的训练数据大量来自**“在线问诊平台”(如好大夫、春雨医生等),这些数据里充斥着医生为了快速回复而使用的“万金油句式”**(例如:“建议去医院检查”、“这个不好说”、“可以观察一下”)。

    • 模型学到了医生的“敷衍”和“短回复”,而没有学到深度推理。

  • 过拟合与遗忘

    • 模型在为了适应你的数据集时,牺牲了原本通用的逻辑判断能力(比如男人不能怀孕,管制药不能买)。

  • Prompt 约束力不足

    • 目前的 System Prompt 虽然定义了身份,但没有强制它进行“逻辑检查”。

解决方案

解决数据集问题的具体思路分解

1. 🧼 核心目标:从原始数据中剔除四类典型“坏数据”

类型特征危害
① 过短无意义回复回复 <1

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询