摘要
2016年FAIR指导原则发布后,科研界愈发重视实验数据的可发现、可访问、可互操作与可重用。但受限于缺失标准化、可落地的基础设施,FAIR原则始终难以融入常规科研工作流。美国国立卫生研究院(NIH)人类生物分子图谱计划(HuBMAP)联盟汇聚了40余家机构的万余套数据集,覆盖单细胞测序、2维及3维空间组学等50余种实验技术,具备搭建FAIR数据生态的先天条件。人类生物分子图谱计划HuBMAPR为实现数据FAIR化,HuBMAP围绕全研究周期,制定并推行了业内公认、规则明确的元数据报告标准。该标准整合适配各类实验技术的精细化规范,明确数据集元数据与数据文件的组织形式,可完整记录数据采集、原始数据、共享打包全流程信息,同时严格遵循「健康保险流通与责任法案」(HIPAA)要求。依托这套标准及配套落地技术,HuBMAP产出大量符合FAIR要求的数据,并通过数据门户与人类参考图谱对外公开。HuBMAP研究人员采用的流程与轻量化工作模式,可为其他整合多源数据集、开展同类研究的科研团队提供参考。目前,NIH细胞衰老网络(SenNet)联盟已借鉴并优化这套以元数据为核心的端到端工作流,相关开源技术也可供全球科研人员使用。
safisher@upenn.edu
j.c.s@pitt.edu
musen@stanford.edu
#人类生物分子图谱计划 #FAIR原则 #元数据 #溯源模型 #数据标准化 #单细胞测序 #空间组学 #数据共享
工作组模式
图1 HuBMAP数据标准的制定与发布工作流程
新标准由数据协调工作组(DCWG)联合领域专家发起制定,随后由本体专家、软件工程师与生物信息学家对描述性、结构性元数据规范开展多轮迭代审核。定稿的标准将接入CEDAR工作台,生成标准化模板与配套文档,在联盟内正式发布。
HuBMAP元数据报告标准
溯源模型:描述性元数据的顶层框架
图2 基于有向图结构的HuBMAP溯源模型
本溯源模型以节点呈现数据采集全流程各环节,涵盖受试者采样、组织制备、单项/多项实验检测的完整链路;箭头代表1类或多类溯源关联事件(如1块组织块可切分为多张切片,单份组织样本可开展多项实验)。部分实验可由多个子实验组合而成,例如Visium技术(组织学染色+ RNA测序)、10x Genomics多组学技术(RNA测序+ ATAC测序)。
描述性元数据模式:基于本体的人机通用模型
表1 RNA测序元数据规范
仅展示RNA测序元数据规范的部分字段
图3 实验工作流时间轴
元数据规范记录溯源模型各环节中组织样本的处理时长(即「处理时间」),以及样本在不同环节间的存放时长(即「原始样本存储时间」),时长单位统一采用分钟、小时或天。
结构性元数据模式:标准化文件组织规范
表2 RNA测序实验文件组织规范
各类实验均配套层级化文件结构、文件类型与命名规则,通用内容在不同数据集间保持统一(如原始数据统一存放于raw/目录)。本示例中,RNA测序FASTQ文件为必填项,需存放至raw/fastq/RNA/目录;extras/目录可选择性存放预期细胞计数文件。
图4 数据集组织结构示例
统一的文件与目录规范实现了不同实验类型、不同数据提交方的文件结构标准化。
(A) RNA测序FASTQ文件存放于raw/fastq/RNA目录,DNA测序(ATAC测序)FASTQ文件存放于raw/fastq/ATAC目录;
(B) 10X Genomics多组学实验整合RNA测序与DNA测序模块,本图展示2类测序规范作为子模块组合为多组学实验规范的形式;
(C) 数据提交方对外共享的10x Genomics数据集目录结构实例。
与人类细胞图谱标准的对接
图5 HuBMAP与人类细胞图谱(HCA)溯源模型对比
2套溯源模型整体架构相近,但在元数据采集范围、数据文件收录规则上存在明显差异。
支撑工作流的软件基础设施
图6 CEDAR元数据验证工具及验证工作流
(A) 在线CEDAR元数据验证工具界面示例。上传Excel(XLSX)或制表符分隔(TSV)格式的元数据表格后,工具从字段完整性(必填字段是否齐全)、内容合规性(数据值是否符合预设类型)2个维度完成全量检测并反馈结果。
(B) 元数据验证工作流示意图:Excel或TSV格式的元数据文件,可通过网页端或应用程序接口(API)调用CEDAR验证器完成校验。
数据
HuBMAP研究属性值集(HRAVS)可在BioPortal平台获取,访问地址
https://purl.humanatlas.io/vocab/hravs
采用本标准发布的数据集可在2大数据门户检索获取
HuBMAP数据门户
https://portal.hubmapconsortium.org/
SenNet数据门户
https://data.sennetconsortium.org/
代码
工作流所使用的HuBMAP、SenNet、CEDAR相关软件均为开源程序,可从以下代码仓库免费下载
https://github.com/hubmapconsortium
https://github.com/sennetconsortium
https://github.com/metadatacenter
详细总结
思维导图
参考
bioRxiv[Preprint]. 2026 Jun 4:2026.06.01.728946. doi: 10.64898/2026.06.01.728946.
The HuBMAP Framework for Advancing Data FAIRness
注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。