摘要
传统表观遗传时钟在泛化性上面临挑战,尤其在训练与测试数据集间存在显著批次效应时,限制了其在衰老评估中的临床应用。本文提出基于成对学习的甲基化年龄与疾病风险预测稳健计算框架MAPLE。MAPLE利用成对学习解析2份DNA甲基化谱在年龄或疾病风险上的相对关系,可有效识别衰老或疾病相关生物学信号,同时降低数据中的技术偏差。MAPLE的性能优于5种对比方法,在来自不同研究、测序平台、数据预处理方法和组织类型的31项基准测试中,中位绝对误差达到1.6年。此外,MAPLE在衰老相关疾病风险评估中表现优异,疾病识别的平均曲线下面积为0.97,疾病前期状态检测的平均曲线下面积为0.85。综上,MAPLE在临床表观遗传年龄评估与衰老相关疾病风险预测中具有巨大应用潜力。
xuyinghui@fudan.edu.cn
heying340@gmail.com
qiyuan@fudan.edu.cn
lijin@fudan.edu.cn
#DNA甲基化 #甲基化年龄 #成对学习 #疾病风险预测 #表观遗传时钟 #批次效应校正
结果
MAPLE概述
图1MAPLE概述
a,DNA甲基化数据的异质性。临床场景中,甲基化谱来自不同人群、测序平台和组织类型。
b,MAPLE的训练流程。首先利用成对学习训练编码器,将不同来源的训练甲基化谱映射至统一隐空间;随后基于生成的隐表示训练预测器,以评估表观遗传年龄或疾病状态。该隐空间保留年龄或疾病相关的表观遗传信号,同时最小化混杂因素。
c,MAPLE的推理流程。训练完成的模型以测试集甲基化数据为输入,预测对应的表观遗传年龄和疾病风险评分。
d,e,训练所用的成对学习策略:表观遗传年龄预测中,成对学习用于预测不同数据集的两个样本间的实足年龄差异;疾病风险预测中,成对学习用于预测同1数据集内2个样本间的疾病风险评分差异。
系统基准测试:MAPLE在表观遗传年龄预测中的性能
图2MAPLE与6种对比方法在31项基准测试中的性能
a,热图展示各血液来源测试数据集的表观遗传年龄预测中位绝对误差(MAE),数据集按GEO编号标注。GSE196696和GSE210255采用EPIC芯片,其余采用450K芯片;左侧标注甲基化数据预处理方法。7种方法按平均MAE从小到大从左至右排列。
b,热图展示7种非血液组织类型的年龄预测中位绝对误差;测试数据集按组织类型标注,方法按平均MAE从小到大从左至右排列。
MAPLE识别的衰老相关CpG位点
图3MAPLE捕获衰老相关生物学过程并检测加速衰老
a,柱状图展示MAPLE识别的衰老相关CpG位点邻近基因的富集通路。采用单侧超几何检验评估通路富集显著性,P值经Benjamini–Hochberg法校正;灰色虚线为校正后显著性阈值(0.05)。
b,点图展示全生命周期内表观遗传年龄与实足年龄绝对误差的100样本滚动均值轨迹。每个点代表100样本滚动窗口内的平均绝对误差,颜色表示性别;实线为数据的LOESS拟合曲线,灰色阴影为95%置信区间。
c–g,箱线图展示唐氏综合征、HIV感染、吸烟、肥胖、阿尔茨海默病人群与对应对照组的衰老加速水平。每个点代表1个独立生物样本的衰老加速值;箱线中线为中位数,箱体为上下4分位数,须线延伸至1.5倍4分位距范围;采用单侧 t 检验评估统计学显著性。样本量:唐氏综合征29例病例、19例对照(血液);HIV 感染229例病例、45例对照(血液);吸烟72例吸烟者、80例非吸烟者(血液);肥胖84例病例、82例对照(肌肉);阿尔茨海默病64例病例、63例对照(脑组织)。
基于MAPLE的心血管疾病(CVD)风险评估
图4基于MAPLE的DNA甲基化数据心血管疾病风险评估
a,b,训练与测试样本甲基化隐表示的主成分分析(PCA)可视化;a中点颜色代表样本年龄,b 中点颜色代表心血管疾病相关状态(对照组13,321例、动脉粥样硬化1,118例、冠脉扩张11例、卒中710例)。
c,箱线图对比MAPLE(左)与Cox模型(右)预测的不同测试组心血管疾病风险评分;每个点代表1个独立样本的风险评分,各组样本量见图中标注;箱线中线为中位数,箱体为上下4分位数,须线延伸至1.5倍4分位距范围。
d,e,柱状图展示区分卒中、冠脉扩张、动脉粥样硬化样本与对照组的曲线下面积(AUROC)和精确率-召回率曲线下面积(AUPRC);数据为均值,误差线为95%置信区间(2.5%–97.5%分位数),由1,000次bootstrap重抽样估算;灰色点为每次bootstrap的单个指标值,展示完整分布。
f,柱状图展示MAPLE识别的心血管疾病相关CpG位点邻近基因的富集通路;检验与校正方法同图3a,灰色虚线为显著性阈值。
基于MAPLE的2型糖尿病(T2D)风险评估
图5基于MAPLE的DNA甲基化数据2型糖尿病风险评估
a,b,训练与测试样本甲基化隐表示的主成分分析(PCA)可视化;
a中点颜色代表样本年龄,
b中点颜色代表2型糖尿病相关状态(对照组12,576例、全身胰岛素抵抗40例、前驱糖尿病47例、2型糖尿病74例)。
c,箱线图对比MAPLE(左)与Cox模型(右)预测的不同测试组2型糖尿病风险评分;每个点代表1个独立样本的风险评分,各组样本量见图中标注;箱线中线为中位数,箱体为上下4分位数,须线延伸至1.5倍4分位距范围。
d,e,柱状图展示区分2型糖尿病、前驱糖尿病、全身胰岛素抵抗样本与对照组的曲线下面积(AUROC)和精确率-召回率曲线下面积(AUPRC);数据为均值,误差线为95%置信区间,由1,000次bootstrap重抽样估算;灰色点为每次bootstrap的单个指标值。
f,柱状图展示MAPLE识别的2型糖尿病相关CpG位点邻近基因的富集通路;检验与校正方法同图3a,灰色虚线为显著性阈值。
数据
本研究使用的所有数据集均从公共数据库下载。表观遗传全基因组关联研究数据中心(EWAS Data Hub)收录大量标准化DNA甲基化芯片数据及对应元数据,本研究450K平台的对照组样本主要来源于该数据库。
https://ngdc.cncb.ac.cn/ewas/datahub/index
LOLIPOP项目提供2,711例血液样本DNA甲基化芯片数据(450K),GSE55763
格雷迪创伤项目提供422例(450K平台)和795例(EPIC平台)血液样本甲基化数据,GSE72680和GSE132203
Johansson等研究提供732例血液样本甲基化数据(450K),GSE87571
基因流行病学动脉病变网络(GENOA)项目提供418例(450K)和1,394例(EPIC)外周血白细胞甲基化数据,GSE210254和GSE210255
国际血液和骨髓移植研究中心(CIBMTR)项目提供570例血液样本甲基化数据(EPIC),GSE196696
AIRWAVE项目提供1,129例外周血单个核细胞甲基化数据(EPIC),GSE147740
欧洲精神分裂症基因-环境互作研究网络(EU-GEI)提供558例血液样本甲基化数据(EPIC),GSE152026
脂肪组织数据集(157例,450K)来自Horvath等和Bonder等研究,GSE61257、GSE61450、GSE61453
脑组织数据集(876例,450K)来自Horvath等和Jaffe等研究,GSE64509、GSE74193
颊上皮数据集(27例,450K)来自Lussier等研究,GSE109042
肌肉组织数据集(132例,450K)来自Zykovich等、Horvath等、Bonder等和Tobi等研究,GSE50498、GSE61259、GSE61452、GSE78743
唾液数据集(131例,450K)来自Chuang等研究,GSE111223
皮肤数据集(15例,450K)来自Tobi等研究,GSE78743
肝脏组织数据集(177例,450K)来自Horvath等、Tobi等和Ahrens等研究,GSE61258、GSE78743、GSE48325
动脉粥样硬化数据集来自多种族动脉粥样硬化研究(MESA)和早期亚临床动脉粥样硬化进展研究(PESA),GSE56046、GSE220622
冠脉扩张数据集来自Lu等研究,GSE87016
卒中数据集来自Cullell等和Soriano-Tarraga等研究,GSE203399、GSE69138
全身胰岛素抵抗数据集来自Arner等研究,GSE76285
前驱糖尿病数据集来自Yumi等研究,GSE199700
2型糖尿病数据集来自Lunnon等和Dye等研究,GSE62003、GSE197881
代码
MAPLE源代码与分析脚本可从GitHub获取,附带使用文档
https://github.com/Drizzle-Zhang/MAPLE
详细总结
思维导图
甲基化年龄预测性能(31项基准测试)
参考
Nat Comput Sci. 2026 Apr;6(4):388-403. doi: 10.1038/s43588-025-00939-x.
A robust computational framework for methylation age and disease-risk prediction based on pairwise learning
2604MAPLE.pdf
注:AI辅助创作,如有错误欢迎指出。内容仅供参考,不构成任何建议。