本次实战聚焦 Spark SQL手动指定数据源格式。通过format()明确指定数据源类型(如 CSV、JSON、JDBC),并用option()传递特定参数(如 CSV 的 header、delimiter,JDBC 的 URL、用户名密码)。演示了读取people.csv(处理 header 和 delimiter)、people.json,以及连接 MySQL 数据库读取t_user表。同时展示了将 DataFrame 以不同格式(Parquet、CSV、JSON)保存到 HDFS 的过程,强调了option()方法在数据读写中的关键作用,确保数据被正确解析和处理。
4.2.2 Spark SQL数据源 - 手动指定数据源格式