GewisLab/CNEnvAir源成分谱应用:PMF/CMB模型数据准备指南
【免费下载链接】CNEnvAir项目地址: https://ai.gitcode.com/GewisLab/CNEnvAir
GewisLab/CNEnvAir是一个专注于中国环境空气研究的开源数据集项目,提供了丰富的空气质量数据、气象数据和关键的源成分谱数据,这些源成分谱数据可直接用于PMF(正定矩阵因子分解)和CMB(化学质量平衡)等主流源解析模型,帮助研究人员高效开展空气污染源解析工作。
为什么选择CNEnvAir进行PMF/CMB模型研究?
CNEnvAir数据集专为空气污染源解析研究设计,其源成分谱数据具有以下显著优势:
全面的污染源覆盖:包含工业燃烧源、工业工艺过程、民用燃烧源、生物质燃烧、畜牧源、道路移动源和非道路移动源等七大类,基本涵盖了中国主要大气污染源。
丰富的化学组分:数据包含PM2.5、PM10、金属元素(如Na、Mg、Al、Si、K等)、离子(如sulfate、nitrate、ammonium)、有机组分(如多环芳烃PAHs)、有机胺(如甲胺、二甲胺)和气态组分(如IVOCs)等多种关键化学物质。
标准化数据格式:所有源成分谱数据均采用Parquet格式存储,具有高压缩率和高效的读写性能,便于使用Python等工具进行数据处理和模型输入。
CNEnvAir源成分谱数据结构详解
核心源谱文件(PMF/CMB模型直接输入数据)
CNEnvAir的source_profiles目录下包含5个核心PM源谱文件,共计414行有效样本,是PMF/CMB模型的主要输入数据:
| 文件 | 行数 | 主要内容 |
|---|---|---|
| PM_source_Industrial_boiler.parquet | 24 | 工业锅炉PM源谱 |
| PM_source_Industrial_process.parquet | 174 | 工业工艺过程PM源谱 |
| PM_source_Power_industry.parquet | 61 | 电力行业PM源谱 |
| PM_source_Residential.parquet | 95 | 民用燃烧PM源谱 |
| PM_source_Transportation.parquet | 60 | 交通源PM源谱 |
这些文件包含统一的关键字段:
一级源: 源类别(如工业燃烧、民用燃烧、交通等)二级源: 具体源类型(如锅炉、工艺过程等)采样地点: 采样区域采样时间: 采样年份组分名称: 化学组分EF: 排放因子 (μg/kg 或 μg/m³)参考文献: 数据来源
辅助组分数据(模型优化与验证)
除核心PM源谱外,还有16个辅助组分文件,提供更详细的化学组分信息,可用于模型优化和结果验证:
- 工业燃烧源:如
工业燃烧源_常规组分.parquet,包含Na、Mg、Al等金属元素 - 民用燃烧源:如
民用燃烧源_有机组分(实验室模拟燃烧).parquet,包含多环芳烃(PAHs) - 生物质开放燃烧源:
生物质开放燃烧源_常规组分.parquet,包含K、Cl等特征组分 - 移动源:如
道路移动源_有机胺.parquet和非道路移动源_气态组分.parquet
PMF/CMB模型数据准备步骤
1. 获取数据集
首先克隆CNEnvAir仓库到本地:
git clone https://gitcode.com/GewisLab/CNEnvAir.git cd CNEnvAir2. 数据选择与提取
根据研究区域和目标污染物,选择合适的源谱文件。例如,若研究城市大气PM2.5来源,核心PM源谱文件是基础:
import pandas as pd # 读取工业锅炉PM源谱数据 industrial_boiler = pd.read_parquet("source_profiles/PM_source_Industrial_boiler.parquet") # 读取交通源PM源谱数据 transportation = pd.read_parquet("source_profiles/PM_source_Transportation.parquet") # 合并源谱数据 source_profiles = pd.concat([industrial_boiler, transportation], ignore_index=True)3. 数据预处理
数据预处理是确保模型准确性的关键步骤,主要包括:
单位统一:确保所有排放因子单位一致,CNEnvAir源谱数据主要使用μg/kg fuel、mg/kg fuel、mg/m³和ng/m³等单位。
缺失值处理:检查并处理缺失数据,可根据研究需求选择删除或插值。
异常值检测:使用统计方法(如Z-score)识别并处理异常值。
组分筛选:根据模型要求和研究目标,筛选出关键化学示踪物。
4. 模型输入格式转换
PMF和CMB模型通常需要特定格式的输入文件,可使用Python将处理后的源谱数据转换为模型所需格式:
# 提取组分名称和排放因子,准备PMF模型输入 pmf_input = source_profiles.pivot_table(index=['一级源', '二级源'], columns='组分名称', values='EF').fillna(0) # 保存为CSV格式 pmf_input.to_csv('pmf_source_profiles.csv')数据使用注意事项
数据适用性:CNEnvAir源谱数据主要针对中国区域污染源,使用时需考虑研究区域与数据采样地点的地理差异。
时间范围:源谱数据的采样时间范围需与受体数据(如空气质量监测数据)的时间范围相匹配,以确保解析结果的准确性。
数据引用:如使用本数据集发表研究成果,请注明数据来源。
数据更新:CNEnvAir项目会定期更新数据,建议关注项目最新动态以获取更完善的源谱数据。
总结
GewisLab/CNEnvAir提供了高质量、标准化的源成分谱数据,为PMF和CMB等源解析模型的应用提供了便捷的数据基础。通过本文介绍的步骤,研究人员可以快速完成模型数据准备,专注于污染源解析方法和结果分析,从而更高效地开展大气污染来源研究工作。
如需进一步了解数据集详情,可参考项目根目录下的README.md和source_profiles目录下的README.md文件,获取更全面的数据说明和使用指南。
【免费下载链接】CNEnvAir项目地址: https://ai.gitcode.com/GewisLab/CNEnvAir
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考