GewisLab/CNEnvAir源成分谱应用：PMF/CMB模型数据准备指南-港品优选

GewisLab/CNEnvAir源成分谱应用：PMF/CMB模型数据准备指南

【免费下载链接】CNEnvAir项目地址: https://ai.gitcode.com/GewisLab/CNEnvAir

GewisLab/CNEnvAir是一个专注于中国环境空气研究的开源数据集项目，提供了丰富的空气质量数据、气象数据和关键的源成分谱数据，这些源成分谱数据可直接用于PMF（正定矩阵因子分解）和CMB（化学质量平衡）等主流源解析模型，帮助研究人员高效开展空气污染源解析工作。

为什么选择CNEnvAir进行PMF/CMB模型研究？

CNEnvAir数据集专为空气污染源解析研究设计，其源成分谱数据具有以下显著优势：

全面的污染源覆盖：包含工业燃烧源、工业工艺过程、民用燃烧源、生物质燃烧、畜牧源、道路移动源和非道路移动源等七大类，基本涵盖了中国主要大气污染源。
丰富的化学组分：数据包含PM2.5、PM10、金属元素（如Na、Mg、Al、Si、K等）、离子（如sulfate、nitrate、ammonium）、有机组分（如多环芳烃PAHs）、有机胺（如甲胺、二甲胺）和气态组分（如IVOCs）等多种关键化学物质。
标准化数据格式：所有源成分谱数据均采用Parquet格式存储，具有高压缩率和高效的读写性能，便于使用Python等工具进行数据处理和模型输入。

CNEnvAir源成分谱数据结构详解

核心源谱文件（PMF/CMB模型直接输入数据）

CNEnvAir的source_profiles目录下包含5个核心PM源谱文件，共计414行有效样本，是PMF/CMB模型的主要输入数据：

文件	行数	主要内容
PM_source_Industrial_boiler.parquet	24	工业锅炉PM源谱
PM_source_Industrial_process.parquet	174	工业工艺过程PM源谱
PM_source_Power_industry.parquet	61	电力行业PM源谱
PM_source_Residential.parquet	95	民用燃烧PM源谱
PM_source_Transportation.parquet	60	交通源PM源谱

这些文件包含统一的关键字段：

一级源: 源类别（如工业燃烧、民用燃烧、交通等）
二级源: 具体源类型（如锅炉、工艺过程等）
采样地点: 采样区域
采样时间: 采样年份
组分名称: 化学组分
EF: 排放因子 (μg/kg 或 μg/m³)
参考文献: 数据来源

辅助组分数据（模型优化与验证）

除核心PM源谱外，还有16个辅助组分文件，提供更详细的化学组分信息，可用于模型优化和结果验证：

工业燃烧源：如工业燃烧源_常规组分.parquet，包含Na、Mg、Al等金属元素
民用燃烧源：如民用燃烧源_有机组分(实验室模拟燃烧).parquet，包含多环芳烃(PAHs)
生物质开放燃烧源：生物质开放燃烧源_常规组分.parquet，包含K、Cl等特征组分
移动源：如道路移动源_有机胺.parquet和非道路移动源_气态组分.parquet

PMF/CMB模型数据准备步骤

1. 获取数据集

首先克隆CNEnvAir仓库到本地：

git clone https://gitcode.com/GewisLab/CNEnvAir.git cd CNEnvAir

2. 数据选择与提取

根据研究区域和目标污染物，选择合适的源谱文件。例如，若研究城市大气PM2.5来源，核心PM源谱文件是基础：

import pandas as pd # 读取工业锅炉PM源谱数据 industrial_boiler = pd.read_parquet("source_profiles/PM_source_Industrial_boiler.parquet") # 读取交通源PM源谱数据 transportation = pd.read_parquet("source_profiles/PM_source_Transportation.parquet") # 合并源谱数据 source_profiles = pd.concat([industrial_boiler, transportation], ignore_index=True)

3. 数据预处理

数据预处理是确保模型准确性的关键步骤，主要包括：

单位统一：确保所有排放因子单位一致，CNEnvAir源谱数据主要使用μg/kg fuel、mg/kg fuel、mg/m³和ng/m³等单位。
缺失值处理：检查并处理缺失数据，可根据研究需求选择删除或插值。
异常值检测：使用统计方法（如Z-score）识别并处理异常值。
组分筛选：根据模型要求和研究目标，筛选出关键化学示踪物。

4. 模型输入格式转换

PMF和CMB模型通常需要特定格式的输入文件，可使用Python将处理后的源谱数据转换为模型所需格式：

# 提取组分名称和排放因子，准备PMF模型输入 pmf_input = source_profiles.pivot_table(index=['一级源', '二级源'], columns='组分名称', values='EF').fillna(0) # 保存为CSV格式 pmf_input.to_csv('pmf_source_profiles.csv')

数据使用注意事项

数据适用性：CNEnvAir源谱数据主要针对中国区域污染源，使用时需考虑研究区域与数据采样地点的地理差异。
时间范围：源谱数据的采样时间范围需与受体数据（如空气质量监测数据）的时间范围相匹配，以确保解析结果的准确性。
数据引用：如使用本数据集发表研究成果，请注明数据来源。
数据更新：CNEnvAir项目会定期更新数据，建议关注项目最新动态以获取更完善的源谱数据。

总结

GewisLab/CNEnvAir提供了高质量、标准化的源成分谱数据，为PMF和CMB等源解析模型的应用提供了便捷的数据基础。通过本文介绍的步骤，研究人员可以快速完成模型数据准备，专注于污染源解析方法和结果分析，从而更高效地开展大气污染来源研究工作。

如需进一步了解数据集详情，可参考项目根目录下的README.md和source_profiles目录下的README.md文件，获取更全面的数据说明和使用指南。

【免费下载链接】CNEnvAir项目地址: https://ai.gitcode.com/GewisLab/CNEnvAir

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

企业官网建设流程全解析