随着观测技术的迭代、数值模拟精度的提升以及计算基础设施的飞跃,地球系统科学、生态学、环境科学及生物医药等自然科学领域正加速迈入“大数据驱动 + 智能模型赋能”的全新阶段。面对高维、非线性、多源异构且充满噪声的真实世界数据,传统的统计建模方法虽具备优良的可解释性,却往往难以捕捉复杂系统的深层动态规律;而纯粹的“黑盒”人工智能技术,若缺乏严谨的数据预处理与不确定性量化,又难以满足科学研究对可信度与机制推断的严苛要求。
如何在经典统计思想与现代AI算法之间架起桥梁?如何利用大模型(Foundation Models)的泛化能力突破小样本科研数据的瓶颈?如何确保模型不仅“预测得准”,更能“说得清”?
专题一、科研数据类型与预处理
夯实建模起点:理解模型本质,规范预处理流程
1.数据尺度分类:名义数据、有序数据、定距数据、比率数据
2.多维数据结构:时间序列、纵向数据、空间场数据、面板数据以及内生/外生变量辨析
3.缺失值处理:基于统计的插补,多重插补
4.异常值处理:基于统计的异常值处理,基于模型的异常值处理
5.累积分布与密度估计
6.时间序列趋势与转折点分析
7.特征工程以及高级特征构造:熵、Hurst指数、滑动统计量
案例分析一:数据分布、核密度函数估计
案例分析二:数据的正态化,Box-Cox转换
案例分析三:气温数据的自相关性,Hurst指数趋势与熵的估计
案例分析四:空气质量数据的多重插补及其不确定性分析
案例分析五:湖泊水质数据的Mann-Kendall趋势检验及其速率估计
专题二、模型评估、验证与不确定性量化
科研可信度的基石:不止于准确率
1.交叉验证与K折检验
2.回归性能指标体系:MAE、RMSE、R²
3.不确定性来源:数据、参数、结构、情景
4.分类模型诊断:召回率,AUC等
案例分析六:NOAA气象数据下载与预处理
案例分析七:分类模型的召回率,精度与AUC制图
专题三、高维与复杂结构数据降维
从高维噪声中提取主导模态
1.主成分分析(PCA)
2.奇异值分解(SVD)与低秩逼近
3.季节分解(STL)
4.非负矩阵分解(NMF)用于源解析
5.独立成分分析(ICA)与核 ICA
6.正交经验分解(EOF)
案例分析八:海面SST数据的EOF分析
案例分析九:谷物光谱独立成分分析
案例分析十:分子结构生物毒性(QSAR)指标的PCA分析
案例分析十一:特斯拉股票数据的季节分解
案例分析十二:带约束的环境污染物溯源及分析
案例分析十三:金融数据时间序列的SVD分解
专题四、时频分析与谱方法
揭示周期、突变与多变量协同机制
1.傅里叶变换与功率谱密度
2.小波变换与局部时频表征
3.互谱、相干性与相位同步
4.Hilbert-Huang 变换(HHT)处理非平稳信号
5.经验模态分解:EEMD
6.多元小波相干分析
案例分析十四:捕获数据与南方涛动指数的周期分析
案例分析十五:希尔伯特-黄变换的手动实现
案例分析十六:心电图数据的小波分析
案列分析十七:不同用户用电量变化的相干性及其多元小波分析
专题五、高级回归建模:超越线性假设
超越线性假设,适配多样响应类型
1.线性回归与指数族
2.广义线性模型(GLM):泊松、负二项、Gamma、零膨胀
3.分位数回归:刻画条件分布全貌
4.非参数回归:核平滑、局部多项式
5.正则化:如果观测值太少怎么办?Lasso、Ridge、Elastic Net、LARS
案例分析十八:车辆保险数据的Gamma回归分析
案例分析十九:结婚与生育率的原因分析(泊松回归与负二项回归)
案例分析二十:乳腺癌病因分析(Logistic回归)
案例分析二十一:房价因素分析(非参数回归)
案例分析二十二:收入与食物支出的不同关系(分位数回归)
案例分析二十三:糖尿病病因分析(Lasso,Ridge与弹性网回归)
专题六、机器学习核心算法
高精度预测与非线性预测工具箱
1.决策树与随机森林
2.梯度提升树:XGBoost、LightGBM、CatBoost
3.支持向量机(SVM)与核函数选择
4.堆叠集成(Stacking)与超参数调优
案例分析二十四:XGBoost vs LightGBM vs CatBoost对比分析,以收入决定因素为例
案例分析二十五:葡萄酒质量与因素间的关系分析:随机森林
案例分析二十六:土地利用类型分类:随机森林
案例分析二十七:葡萄酒质量与因素间的关系分析:支持向量机
案例分析二十八:森林类型分析:堆叠模型
专题七、可解释人工智能(XAI)
让模型“说出理由”:支持科学归因与机制推断
1.传统的可解释性:基于置换的重要性,基于信息论的重要性,部分依赖图(PDP)、LIME
2.基于博弈论的新颖可解释性:SHAP,高级SHAP(Conditional)
3.交互效应量化:H 统计量
4.特征泄露警示
案例分析二十九:SHAP方法分析化学物质的生物降解性预测模型
案例分析三十:随机森林模型的可解释性
案例分析三十一:XGBoost可解释性
专题八、深度学习:感知与表征
处理图像与光谱
1.多层感知机(MLP)与激活函数选择
2.自编码器(AE)与变分自编码器(VAE)
3.卷积神经网络(CNN):LeNet → ResNet
4.U-Net架构:语义分割与边界保持
案例分析三十二:多层感知机的手工实现
案例分析三十三:基于CNN的地物分类
案例分析三十四:基于U-NET的土地覆盖分割
专题九、深度学习进阶:序列、生成与注意力
建模动态演化、注意力机制与时空数据
1.RNN/LSTM/GRU:记忆机制对比
2.Attention机制原理
3.Transformer与Swin Transformer
4.扩散模型讲解
5.ConvLSTM、PredRNN等时空预测架构
案例分析三十五:一维CNN用于时间序列预测
案例分析三十六;多元时间序列的LSTM预测
案例分析三十七:太阳辐射数据的GRU预测(多元时间序列)
案例分析三十八:每日销售数据的Transformer预测
案例分析三十九:Mamba代码分析
案例分析四十:Mamba模型的销售数据时间序列预测
案例分析四十一:基于ConvLSTM的省气温数据预测
案例分析四十二:基于SWIN TRANSFORMER的气温数据预测
点赞+关注