Python学习第74天:深入浅出pandas-3(数据重塑与数据清洗)
2026/6/11 2:29:56 网站建设 项目流程

Python学习100天(从入门到精通系列文章)


文章目录

  • Python学习100天(从入门到精通系列文章)
  • 前言
  • 一、数据重塑:多表整合
    • 1.1 数据拼接:concat 函数
    • 1.2 数据关联:merge 函数
  • 二、数据清洗:让脏数据变干净
    • 2.1 缺失值处理
      • 检测缺失值
      • 删除缺失值
      • 填充缺失值
    • 2.2 重复值处理
      • 检测重复值
      • 删除重复值
    • 2.3 异常值检测与处理
      • Z-score 方法
      • IQR 方法(四分位距法)
      • 删除和替换异常值
  • 三、数据预处理实战
    • 3.1 日期时间处理
    • 3.2 字符串处理与正则提取
    • 3.3 数据离散化(分箱)
    • 3.4 分类变量编码
  • 四、常见错误与避坑指南
    • 错误1:merge 时忽略索引导致连接失败
    • 错误2:混淆 inplace 参数的行为
    • 错误3:fillna 使用 method 参数时未排序
  • 参考链接
  • 总结

前言

在数据分析的实战中,我们很少能直接拿到"开箱即用"的干净数据。数据可能分散在多个表中需要合并,可能包含缺失值和重复记录,也可能存在格式不统一的问题。本文聚焦 pandas 的数据重塑与数据清洗两大核心技能,帮助你掌握concatmerge等数据整合方法,以及缺失值、重复值、异常值的处理技巧。适合已掌握 pandas 基础读写操作、准备进入真实数据分析场景的读者。


一、数据重塑:多表整合

数据重塑(Data Reshaping)是指将来自不同数据源、不同结构的数据整合到一起的过程。在实际工作中,我们经常需要把多个DataFrame拼接或关联起来,这是进行多维度分析的基础。

1.1 数据拼接:concat 函数

当多个DataFrame拥有相同的列结构时(例如从不同月份导出的员工表),可以使用pd.concat()将它们纵向拼接。

importpandasaspd# 假设 emp_df 和 emp2_df 都是员工数据,结构完全一致all_emp_df

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询