放射组学与机器学习在冠状动脉钙化自动评分中的实践与对比
2026/5/25 6:11:19 网站建设 项目流程

1. 项目概述:当放射组学遇上冠状动脉钙化评分

在心血管影像诊断的日常工作中,冠状动脉钙化(CAC)评分是个绕不开的“金标准”。它就像给心脏血管做一次“地质勘探”,通过CT扫描量化血管壁上的钙化斑块,直接反映动脉粥样硬化的负荷。传统的Agatston评分法,需要放射科医生或技师在非对比增强的心脏CT图像上,逐层、逐血管地圈出钙化区域,计算面积和密度。这个过程,我干了十几年,深知其苦:一个病人几十甚至上百层图像,看得眼花缭乱不说,不同医生之间、甚至同一医生不同时间点的判读,都可能存在主观差异,我们称之为“观察者间”和“观察者内”变异。更现实的是,在基层医院或体检筛查中,具备丰富经验的专家资源是稀缺的。

所以,当人工智能(AI)的风吹进医学影像领域时,我们这些一线工作者最关心的不是它有多“炫”,而是它能不能真正落地,解决“人不够、活太多、标准难统一”的痛点。深度学习,特别是基于卷积神经网络(CNN)的自动分割与分类,一度被寄予厚望。但理想很丰满,现实很骨感:训练一个高精度的深度学习模型,需要海量、高质量、由专家精细标注的数据。在医疗领域,尤其是涉及患者隐私的影像数据,获取和标注成本极高,这成了AI落地临床的最大“拦路虎”。

正是在这种背景下,我们团队把目光投向了放射组学(Radiomics)。你可以把它理解为给医学图像做一次“深度体检”,不是看形状大小,而是用数学方法提取成百上千个定量特征,描述图像的纹理、强度分布、形状复杂度等。这些特征很多是人眼根本无法直接感知的,但它们可能隐藏着疾病早期的生物信息。更重要的是,放射组学流程相对标准化,对标注数据的依赖度低于端到端的深度学习,因为它可以先通过一些自动化工具(比如我们用的TotalSegmentator)获取大致的感兴趣区域(ROI),再进行特征提取。这次分享的,就是我们基于这个思路,构建的一个用于冠状动脉钙化自动评分(零 vs. 非零)的机器学习框架。我们不仅验证了放射组学在此任务上的有效性,还把它和当下热门的预训练基础模型(如CT-FM, RadImageNet)做了次正面较量,结果颇有意思。

2. 核心思路与技术选型:为什么是“特征驱动”而非“端到端”

2.1 直面临床核心痛点:标注数据稀缺与流程自动化

我们的出发点非常务实:如何在缺乏大量专家手动分割标注的情况下,实现冠状动脉钙化评分的可靠自动化?临床上的非对比增强CCTA扫描主要用于钙化筛查,数据量相对较大,但逐层勾画冠状动脉并标注钙化点,对于大规模研究而言几乎是不可完成的任务。因此,一个能够减少甚至避免对精细标注依赖的 pipeline,其临床转化潜力更大。

传统的AI解决方案通常是“分割后分析”的两步走:先用一个深度学习模型分割出冠状动脉,再在分割出的血管区域上计算钙化积分。这个思路直观,但瓶颈就在第一步:分割模型需要大量冠状动脉层面的像素级标注数据来训练。我们的方案跳出了这个框架,转向了特征驱动的路线。核心思想是:我们不追求像素级完美的血管分割,而是通过一种弱监督或自动化的方式,快速、大致地定位出心脏区域或冠状动脉的大致范围(即生成伪标签),然后在这个区域内提取大量定量影像特征,最后用一个机器学习分类器来判断这个病例是否存在钙化(即零分 vs. 非零分)。这样做,将问题从需要精确分割的“定位+量化”问题,转化为了基于区域整体特征的“分类”问题,大大降低了对标注数据的要求。

2.2 技术路径对比:放射组学 vs. 预训练深度学习特征

在这个框架下,我们主要探索和对比了两种特征提取策略:

  1. 基于放射组学的特征:这是我们方法的核心。使用自动化分割工具(TotalSegmentator)对全心脏CT体积进行分割,获取左、右冠状动脉的粗略区域作为ROI。然后,使用PyRadiomics这类标准库从该3D ROI中提取上百个定量特征,包括一阶统计特征(描述像素强度分布)、纹理特征(描述像素间的空间关系,如GLCM, GLRLM)、形状特征等。之后通过特征选择(如相关性过滤)降维,得到一组最具判别力的特征子集。其优势在于特征具有明确的物理和数学意义,可解释性强,且流程相对稳定。

  2. 基于预训练基础模型的深度学习特征:我们测试了两种先进的、在大规模医学影像上预训练的模型:

    • CT-FM:一个专门为CT影像设计的、基于对比学习预训练的大型3D模型。它可以直接读入整个3D CT体积,输出一个固定长度的特征向量(512维)。它学习到的是图像中更全局、更高层次的语义表征。
    • RadImageNet:一个在135万张标注医学图像上预训练的2D ResNet50模型。我们采用“切片通过模型,再平均池化”的方式,将3D体积转化为一个特征向量。它代表了在广谱医学图像上迁移学习的能力。

我们假设,这些在大数据上预训练的模型,其提取的“深度特征”可能比手工设计的放射组学特征更具表达力和泛化能力。但结果需要验证。

2.3 分类器选型:经典机器学习模型的舞台

无论特征来自哪里,最终都需要一个分类器来做决策。我们没有选择复杂的深度神经网络分类头,而是回归到一系列经过时间检验的经典机器学习模型:支持向量机(SVM)、随机森林(Random Forest)、XGBoost、LightGBM以及多层感知机(MLP)。这样选择基于几点考量:

  • 可解释性与稳定性:相比深度网络,这些模型(尤其是树模型)的特征重要性分析更直观,有助于我们理解哪些影像特征对判断钙化有贡献。
  • 小数据友好性:在特征维度可能高于样本数的情况下,这些模型通过正则化、剪枝等手段,通常比深度网络更不容易过拟合。
  • 计算效率:训练和调参速度更快,便于我们进行大量的对比实验和交叉验证。
  • 公平比较:使用相同的分类器族,可以更纯粹地比较不同特征提取方法(放射组学 vs. 深度学习)本身的优劣,而非分类器架构的差异。

3. 数据准备与预处理:构建可靠实验基线的基石

3.1 数据集构成与挑战

我们使用的数据集来自合作医院的临床回顾性数据,包含188名患者的CCTA扫描。所有数据均经过伦理批准并匿名化处理。最终用于分析的182例患者被分为两组:94例钙化积分为零(CAC=0),88例钙化积分大于零(CAC>0)。这是一个典型的类别不平衡(但尚可接受)的二分类数据集。

这里有一个临床实践中常见的混合情况:数据集里既包含非对比增强扫描(平扫,用于钙化评分标准流程),也包含对比增强扫描(打了造影剂,用于评估血管狭窄)。这带来了一个有趣的实验设计点:用混合数据(平扫+增强)训练的模型,在纯平扫数据上测试,性能会如何?这模拟了现实世界中模型可能遇到的数据多样性。我们为此设置了两个训练集:纯平扫数据集、平扫+增强混合数据集,测试集则均为独立的平扫数据。

注意:使用临床回顾性数据时,必须确保数据来源合规、匿名化彻底,并获取必要的��理审查批准。这是所有医学AI研究不可逾越的红线。

3.2 预处理流程详解

不同的特征提取方法,预处理步骤也有所侧重:

  1. 通用预处理:所有DICOM文件首先被重建成3D NIfTI格式的体积数据,以便进行后续的体素级分析。这是医学影像处理的标准起点。

  2. 针对放射组学流程的预处理

    • 自动化分割(伪标签生成):这是关键一步。我们使用TotalSegmentator工具。你不需要自己训练分割模型,它提供了一个预训练好的模型,能够从全身CT中自动分割出100多个解剖结构,包括左、右冠状动脉。输入整个心脏CT体积,它就能输出这两个冠状动脉的粗略分割掩膜(Mask)。虽然这个分割可能不如专家手动勾画精确,特别是对于细小分支,但它能稳定、快速地提供一个包含主要冠状动脉的ROI,足以用于提取有意义的整体纹理和强度特征。对于完全无法分割出冠状动脉的极少数体积,我们予以排除。
    • 特征提取与降维:在获得的冠状动脉ROI掩膜上,调用PyRadiomics库提取特征。我们最初得到了112个特征。但特征间可能存在高度相关性,直接扔给模型会导致冗余和过拟合。我们采用了一种简单的过滤式特征选择:计算所有特征两两之间的相关系数,移除那些与其他特征相关性过高(例如,设定阈值>0.9)的特征。最终,特征集被精简到36个。这个过程在保持性能的同时,提升了模型的效率和可解释性。
  3. 针对CT-FM的预处理:CT-FM作为3D模型,对输入有特定要求。我们将体积数据重新定向到标准的解剖坐标系(SPL),将CT值(HU单位)截断到[-1024, 2048]的典型范围(覆盖从空气到骨骼的常见组织),并线性缩放到[0,1]区间。同时,为了减少计算量,会裁剪掉图像中大片的背景区域。

  4. 针对RadImageNet的预处理:RadImageNet是2D模型。我们的处理方式是“切片级特征,体积级聚合”。将3D体积沿轴向切成一个个2D切片,每个切片按照RadImageNet要求的格式进行预处理(如调整尺寸、归一化),然后分别通过预训练的ResNet50提取特征。最后,将所有切片的特征向量进行平均,得到一个代表整个体积的全局特征向量。

4. 模型训练、评估与结果深度剖析

4.1 实验设置与评估指标

我们将数据按8:2的比例划分为训练集和独立的测试集。在训练集上,采用五折交叉验证进行超参数网格搜索,为每个分类器(SVM, RF, XGBoost, LightGBM, MLP)寻找最优参数组合。评估时,使用在训练集上得到的最佳模型在独立的测试集上计算性能指标。

我们摒弃了单一准确率的评价方式,采用了一套综合指标来全面衡量模型性能:

  • 准确率(Accuracy):整体分类正确的比例。
  • 灵敏度(Sensitivity/Recall):识别出真实钙化病例(CAC>0)的能力。在疾病筛查中,高灵敏度意味着漏诊少,至关重要。
  • 特异度(Specificity):识别出真实无钙化病例(CAC=0)的能力。高特异度意味着误诊(假阳性)少。
  • 精确率(Precision/PPV):在所有被模型预测为钙化的病例中,真正是钙化的比例。
  • F1分数(F1-Score):灵敏度和精确率的调和平均数,在类别不平衡时比准确率更有参考价值。
  • 阴性预测值(NPV):在所有被模型预测为无钙化的病例中,真正无钙化的比例。

4.2 结果对比与发现

实验结果的对比非常清晰,也出乎一些人的意料:

  1. 放射组学特征大获全胜:无论是在纯平扫还是混合数据集上训练,基于放射组学特征构建的模型,其性能全面碾压了基于CT-FM和RadImageNet深度学习特征的模型。表现最好的随机森林(Random Forest)模型,在测试集上达到了84%的准确率,同时保持了95%的高灵敏度72%的特异度。这意味着它能极好地捕捉到钙化病例(漏诊率低),同时也有较好的排除无钙化病例的能力。XGBoost和LightGBM也紧随其后,表现稳健。

  2. 深度学习特征表现欠佳

    • CT-FM特征:最佳模型(MLP)在平扫数据上达到约74%的准确率,但灵敏度普遍较低(多在60%左右),说明它倾向于保守,容易将钙化病例误判为正常。
    • RadImageNet特征:表现最不理想,最佳准确率仅63%左右,各项指标均徘徊在随机猜测水平附近。
    • 统计显著性:我们进一步做了配对t检验,结果显示放射组学模型与CT-FM模型之间的性能差异(在准确率和F1分数上)具有统计学意义(p<0.05),这从统计上确认了放射组学优势并非偶然。
  3. 数据混合训练的影响:一个有趣的发现是,对于放射组学模型,使用“平扫+增强”混合数据训练,并未比仅用“平扫”数据训练带来显著的性能提升,有时甚至略有波动。这表明,对于基于纹理和强度的放射组学特征,对比剂的注入可能引入了与钙化判别无关的变异,纯平扫数据可能已经包含了足够的信息。而对于深度学习特征,数据混合的影响则不一致,未显示出稳定规律。

4.3 结果解读与启示

这个结果值得我们深入思考:

  • “大力出奇迹”未必适用于所有场景:CT-FM和RadImageNet是在海量数据上预训练的“大模型”,但它们学到的是非常通用、高层的图像表征。对于“冠状动脉钙化存在与否”这个相对具体、且与局部细微纹理和钙化点密度高度相关的任务,这些通用特征可能不够“锐利”。相反,放射组学手工设计的特征,虽然看似“传统”,但直指图像的本质物理属性(如纹理粗糙度、均匀性),在这个特定任务上反而更具判别力。
  • 可解释性是临床接受的钥匙:放射组学模型的另一个巨大优势是可解释性。我们可以通过随机森林或XGBoost提供的特征重要性排序,知道是哪些图像特征(例如,某个GLCM对比度特征、某个一阶能量特征)对分类决策贡献最大。这能让放射科医生理解模型的“思考过程”,建立信任。而深度学习特征就像一个黑盒,医生很难理解为什么这个病例被判为阳性。
  • 工程实用性的胜利:我们的整个放射组学流程,无需任何专家手动分割标注,利用开源工具(TotalSegmentator, PyRadiomics)和经典机器学习库(scikit-learn, XGBoost)即可搭建。这意味着更低的部署门槛、更快的迭代速度,非常适合在标注数据稀缺的临床环境中快速原型开发和验证。

5. 实操心得、避坑指南与未来展望

5.1 从实验到落地的关键考量

  1. 伪标签的质量是天花板:TotalSegmentator的分割精度直接决定了ROI的质量。虽然它对于主要冠状动脉的定位总体不错,但对于严重钙化导致血管形态改变、或解剖结构变异的病例,其分割可能失效。在实际部署前,必须在一个有代表性的本地数据集上验证其分割的鲁棒性。必要时,可以结合心脏区域分割(Heart Region)作为ROI,虽然会引入更多非血管组织噪声,但可能更稳定。

  2. 特征工程与选择至关重要:PyRadiomics能提取大量特征,但并非所有��征都有用。我们采用的相关性过滤只是第一步。在实际项目中,建议结合方差阈值(移除方差几乎为零的特征)、递归特征消除(RFE)或基于模型的特征重要性进行更精细的筛选。特别注意,特征选择必须在训练集的交叉验证循环内进行,避免数据泄露。

  3. 类别不平衡的处理:我们的数据(94 vs. 88)相对平衡。如果遇到更严重的不平衡(如筛查人群中阳性率很低),需要在模型层面(如class_weight参数)或评估层面(重点关注AUC-PR、灵敏度、特异度)采取相应措施。过采样(如SMOTE)或欠采样需谨慎使用,以免引入偏差或丢失信息。

  4. 从二分类到多分类/回归的挑战:本研究聚焦于“有无钙化”的二分类,这是临床风险分层的第一步。但真正的Agatston评分是连续值或有序类别(如0, 1-100, 101-400, >400)。将其扩展为多分类或回归任务,难度会指数级增加。不同钙化积分区间的样本量可能差异巨大,且特征与积分值之间的非线性关系更为复杂。可能需要更精细的ROI划分(如区分左前降支、回旋支、右冠状动脉分别提取特征),或引入更强大的回归模型(如梯度提升回归树)。

5.2 未来可探索的方向

基于本次研究的经验,我认为有几个方向值得深入:

  • 多模态融合:临床决策从不只依赖影像。将患者的年龄、性别、血脂、血压等临床指标与放射组学特征融合,构建一个多模态模型,有望大幅提升风险预测的准确性。这可以通过早期融合(拼接特征)或晚期融合(模型集成)来实现。
  • 弱监督与自监督学习:虽然我们用了伪标签,但本质上还是“有监督”学习。未来可以探索更彻底的弱监督方法,例如,仅利用患者级别的钙化积分标签(而无需任何分割标注),通过多实例学习(MIL)等方式训练模型,使其自动关注图像中与钙化相关的区域。
  • 模型轻量化与部署:最终目标是集成到医院的PACS或影像工作站中。随机森林/XGBoost模型预测速度极快,但特征提取步骤(尤其是3D放射组学计算)可能成为瓶颈。需要优化PyRadiomics的计算流程,或探索在GPU上加速特征提取的方法。
  • 外部验证与泛化性:本研究是在单一中心、特定扫描仪的数据集上完成的。模型的泛化能力必须在不同医院、不同CT机型、不同扫描协议采集的数据上进行严格的外部验证,这是通向临床应用的必经之路。

回过头看,这项工作的价值不在于用了多前沿的深度学习模型,而在于在真实的临床约束(数据少、标注难)下,找到了一条切实可行且效果出色的技术路径。它提醒我们,在医学AI领域,有时候“合适的”比“最新的”更重要。放射组学与经典机器学习的组合,以其可解释性、稳定性和对数据标注的低依赖,在诸如钙化评分这类具有明确影像学生物学关联的任务上,依然展现出强大的生命力。对于想要进入医学影像AI领域的工程师或研究者来说,从这样一个问题定义清晰、流程相对标准、且能快速看到反馈的项目入手,或许是一个更稳妥和富有成效的选择。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询