Python学习100天(从入门到精通系列文章)
文章目录
- Python学习100天(从入门到精通系列文章)
- 前言
- 一、数据重塑:多表整合
- 1.1 数据拼接:concat 函数
- 1.2 数据关联:merge 函数
- 二、数据清洗:让脏数据变干净
- 2.1 缺失值处理
- 检测缺失值
- 删除缺失值
- 填充缺失值
- 2.2 重复值处理
- 检测重复值
- 删除重复值
- 2.3 异常值检测与处理
- Z-score 方法
- IQR 方法(四分位距法)
- 删除和替换异常值
- 三、数据预处理实战
- 3.1 日期时间处理
- 3.2 字符串处理与正则提取
- 3.3 数据离散化(分箱)
- 3.4 分类变量编码
- 四、常见错误与避坑指南
- 错误1:merge 时忽略索引导致连接失败
- 错误2:混淆 inplace 参数的行为
- 错误3:fillna 使用 method 参数时未排序
- 参考链接
- 总结
前言
在数据分析的实战中,我们很少能直接拿到"开箱即用"的干净数据。数据可能分散在多个表中需要合并,可能包含缺失值和重复记录,也可能存在格式不统一的问题。本文聚焦 pandas 的数据重塑与数据清洗两大核心技能,帮助你掌握concat、merge等数据整合方法,以及缺失值、重复值、异常值的处理技巧。适合已掌握 pandas 基础读写操作、准备进入真实数据分析场景的读者。
一、数据重塑:多表整合
数据重塑(Data Reshaping)是指将来自不同数据源、不同结构的数据整合到一起的过程。在实际工作中,我们经常需要把多个DataFrame拼接或关联起来,这是进行多维度分析的基础。
1.1 数据拼接:concat 函数
当多个DataFrame拥有相同的列结构时(例如从不同月份导出的员工表),可以使用pd.concat()将它们纵向拼接。
importpandasaspd# 假设 emp_df 和 emp2_df 都是员工数据,结构完全一致all_emp_df