Python 爬虫实战：将爬取数据存入 CSV 表格-港品优选

前言

在数据采集与分析的工作场景中，Python 爬虫是获取网络公开数据的核心技术手段，而将爬取到的数据规范化存储则是后续数据处理的基础环节。CSV（逗号分隔值）格式作为一种轻量级、跨平台的表格文件格式，因其结构简单、易读取、兼容性强的特点，成为爬虫数据存储的首选方式之一。本文将从实战角度出发，系统讲解如何通过 Python 实现网页数据爬取，并将结构化数据精准存入 CSV 表格，同时兼顾代码的规范性、可读性与可扩展性，帮助开发者掌握爬虫数据持久化的核心方法。

摘要

本文以「豆瓣电影 Top250」（https://movie.douban.com/top250）为爬取目标，详细阐述 Python 爬虫从请求发送、数据解析到 CSV 数据写入的全流程实现。内容涵盖 requests 库发起 HTTP 请求、BeautifulSoup 库解析 HTML 页面、csv 模块处理表格数据存储等核心技术点，同时针对编码问题、数据结构化、异常处理等关键环节给出解决方案，最终实现爬取电影名称、评分、简介等信息并写入 CSV 文件的完整实战案例。

一、技术栈与环境准备

1.1 核心库介绍

实现本次爬虫实战需依赖以下 Python 库，各库的核心作用如下表所示：

库名称	核心作用	安装命令
requests	发送 HTTP/HTTPS 请求，获取网页源代码	pip install requests
beautifulsoup4	解析 HTML/XML 页面，提取结构化数据	pip install beautifulsoup4
csv	Python 内置库，处理 CSV 文件的读写操作	无需安装，内置
fake-useragent	生成随机 User-Agent，规避基础反爬机制	pip install fake-useragent

1.2 环境要求

Python 版本：3.7 及以上（推荐 3.9-3.11）
操作系统：Windows/macOS/Linux 均可
网络环境：可正常访问目标网站（豆瓣电影 Top250）

二、爬虫基础原理与合规性说明

2.1 爬虫核心流程

本次实战的爬虫流程遵循「请求 - 解析 - 存储」的经典逻辑：

请求阶段：模拟浏览器向目标网页发送 GET 请求，获取网页 HTML 源代码；
解析阶段：通过 BeautifulSoup 定位 HTML 标签，提取所需的电影数据；
存储阶段：将解析后的结构化数据按行写入 CSV 文件，完成数据持久化。

2.2 合规爬取说明

在爬取公开数据前，需遵守以下合规原则：

查看目标网站的 robots.txt 协议（豆瓣 robots.txt：https://www.douban.com/robots.txt），确认爬取范围未被禁止；
控制请求频率，避免短时间内高频请求给服务器造成压力；
仅爬取公开的非商业数据，不得用于违规用途；
设置合理的请求头（如 User-Agent），模拟正常浏览器访问。

三、实战代码实现

3.1 完整代码

python

运行

import requests from bs4 import BeautifulSoup import csv import time from fake_useragent import UserAgent # 配置项 TARGET_URL = "https://movie.douban.com/top250" CSV_FILE_PATH = "douban_top250.csv" HEADERS = { "User-Agent": UserAgent().random, "Accept-Language": "zh-CN,zh;q=0.9", "Connection": "keep-alive" } # 重试次数 RETRY_TIMES = 3 def get_page_html(url): """ 获取指定URL的网页HTML源代码 :param url: 目标网页URL :return: 网页HTML文本（失败返回None） """ for i in range(RETRY_TIMES): try: response = requests.get(url, headers=HEADERS, timeout=10) # 校验响应状态码 response.raise_for_status() # 设置正确的编码 response.encoding = response.apparent_encoding return response.text except requests.exceptions.RequestException as e: print(f"第{i+1}次请求失败，错误信息：{e}") time.sleep(2) # 重试前休眠2秒 return None def parse_movie_data(html): """ 解析HTML页面，提取电影数据 :param html: 网页HTML文本 :return: 电影数据列表（每个元素为字典） """ movie_list = [] soup = BeautifulSoup(html, "html.parser") # 定位电影列表容器 movie_items = soup.find_all("div", class_="item") for item in movie_items: # 提取排名 rank = item.find("em").text # 提取电影名称 title = item.find("span", class_="title").text # 提取评分 score = item.find("span", class_="rating_num").text # 提取评价人数 comment_num = item.find("div", class_="star").find_all("span")[-1].text.replace("人评价", "") # 提取简介（部分电影无简介，做容错处理） quote_tag = item.find("span", class_="inq") quote = quote_tag.text if quote_tag else "无简介" # 构造电影数据字典 movie_info = { "排名": rank, "电影名称": title, "评分": score, "评价人数": comment_num, "简介": quote } movie_list.append(movie_info) return movie_list def write_to_csv(data, file_path): """ 将电影数据写入CSV文件 :param data: 电影数据列表 :param file_path: CSV文件保存路径 """ # 定义CSV表头 headers = ["排名", "电影名称", "评分", "评价人数", "简介"] # 打开文件，设置newline避免空行，encoding设置为utf-8-sig解决中文乱码 with open(file_path, "w", newline="", encoding="utf-8-sig") as f: writer = csv.DictWriter(f, fieldnames=headers) # 写入表头 writer.writeheader() # 写入数据行 writer.writerows(data) print(f"数据已成功写入CSV文件：{file_path}") def crawl_douban_top250(): """ 爬取豆瓣电影Top250并写入CSV """ all_movie_data = [] page = 0 while True: # 构造分页URL（豆瓣Top250每页25条，偏移量为page*25） page_url = f"{TARGET_URL}?start={page*25}&filter=" print(f"正在爬取第{page+1}页：{page_url}") # 获取页面HTML html = get_page_html(page_url) if not html: print(f"第{page+1}页爬取失败，终止爬取") break # 解析电影数据 movie_data = parse_movie_data(html) if not movie_data: print("已爬取完所有数据，终止爬取") break # 合并数据 all_movie_data.extend(movie_data) # 休眠1秒，降低请求频率 time.sleep(1) page += 1 # 将所有数据写入CSV if all_movie_data: write_to_csv(all_movie_data, CSV_FILE_PATH) else: print("未爬取到任何数据") if __name__ == "__main__": # 执行主爬取函数 crawl_douban_top250()

3.2 代码核心原理解析

（1）请求模块（get_page_html 函数）

功能：向目标 URL 发送 GET 请求，获取网页 HTML 源代码；
核心逻辑：
- 使用fake-useragent生成随机 User-Agent，避免被服务器识别为爬虫；
- 设置 10 秒超时时间，防止请求长时间阻塞；
- 实现 3 次重试机制，请求失败后休眠 2 秒再重试，提升稳定性；
- 自动识别网页编码（response.apparent_encoding），避免乱码。

（2）解析模块（parse_movie_data 函数）

功能：通过 BeautifulSoup 解析 HTML，提取结构化电影数据；
核心逻辑：
- 使用html.parser解析器解析 HTML 文本；
- 通过find_all定位所有电影条目（div.item）；
- 针对每个条目，通过标签类名精准提取排名、名称、评分等字段；
- 对「简介」字段做容错处理（部分电影无简介），避免程序报错；
- 将每条电影数据封装为字典，便于后续 CSV 写入。

（3）存储模块（write_to_csv 函数）

功能：将解析后的电影数据写入 CSV 文件；
核心逻辑：
- 使用csv.DictWriter按字典键值对写入数据，无需手动拼接逗号；
- 设置newline=""避免 CSV 文件出现空行；
- 编码设置为utf-8-sig，解决 Windows 系统下 CSV 中文乱码问题；
- 先写入表头（排名、电影名称等），再批量写入数据行。

（4）主函数（crawl_douban_top250 函数）

功能：实现分页爬取逻辑，整合请求、解析、存储流程；
核心逻辑：
- 构造分页 URL（豆瓣 Top250 分页参数为start，每页 25 条）；
- 循环爬取每页数据，直到解析不到电影条目为止；
- 每页爬取后休眠 1 秒，控制请求频率；
- 合并所有页面数据后，一次性写入 CSV 文件，提升效率。

3.3 代码运行结果

（1）控制台输出

plaintext

正在爬取第1页：https://movie.douban.com/top250?start=0&filter= 正在爬取第2页：https://movie.douban.com/top250?start=25&filter= 正在爬取第3页：https://movie.douban.com/top250?start=50&filter= ... 正在爬取第10页：https://movie.douban.com/top250?start=225&filter= 数据已成功写入CSV文件：douban_top250.csv

（2）CSV 文件输出效果

排名	电影名称	评分	评价人数	简介
1	肖申克的救赎	9.7	2651197	希望让人自由
2	霸王别姬	9.6	1923302	风华绝代
3	阿甘正传	9.5	1852050	一部美国近现代史
...	...	...	...	...
250	摩登时代	9.3	655690	永不落幕的经典

四、常见问题与解决方案

4.1 CSV 中文乱码问题

现象：打开 CSV 文件后中文显示为乱码；
解决方案：写入文件时指定编码为utf-8-sig（而非utf-8），utf-8-sig会添加 BOM 头，让 Windows 记事本、Excel 等工具正确识别编码。

4.2 爬取数据为空

原因：
1. 目标网页结构变更，标签类名或路径修改；
2. 请求头设置不当，被服务器拒绝访问；
3. 网络问题导致请求失败；
解决方案：
1. 重新审查网页 HTML 结构，更新解析规则；
2. 验证 User-Agent 等请求头是否有效，可直接使用浏览器的 User-Agent；
3. 增加请求重试机制，打印错误日志定位问题。

4.3 爬取速度过快被限制

现象：爬取几页后请求失败，返回 403/429 状态码；
解决方案：
1. 增加每页爬取的休眠时间（如time.sleep(1)改为time.sleep(2)）；
2. 使用代理 IP 池分散请求来源；
3. 降低并发请求数，采用单线程爬取。

五、总结与扩展

5.1 实战总结

本文通过豆瓣电影 Top250 爬取案例，完整实现了「请求 - 解析 - 存储」的爬虫闭环，核心要点包括：

合规爬取是前提，需遵守 robots 协议和网站规则；
异常处理是保障，重试机制、超时设置能提升爬虫稳定性；
数据结构化是关键，字典格式便于 CSV 写入和后续数据处理；
编码问题需重视，utf-8-sig是解决中文乱码的通用方案。

5.2 扩展方向

数据扩展：增加爬取电影导演、主演、上映时间等更多字段；
功能扩展：实现数据去重、增量爬取（仅爬取新增电影）；
性能扩展：使用多线程 / 异步（aiohttp）提升爬取速度；
存储扩展：将数据同时写入 MySQL、MongoDB 等数据库，满足不同存储需求；
反爬扩展：结合验证码识别、Cookie 池等应对更严格的反爬机制。

通过本次实战，开发者可掌握爬虫数据存入 CSV 的核心方法，后续可基于此框架适配不同目标网站的爬取需求，实现更复杂的数据分析场景。

企业官网建设流程全解析

前言

摘要

一、技术栈与环境准备

1.1 核心库介绍

1.2 环境要求

二、爬虫基础原理与合规性说明

2.1 爬虫核心流程

2.2 合规爬取说明

三、实战代码实现

3.1 完整代码

3.2 代码核心原理解析

（1）请求模块（get_page_html 函数）

（2）解析模块（parse_movie_data 函数）

（3）存储模块（write_to_csv 函数）

（4）主函数（crawl_douban_top250 函数）

3.3 代码运行结果

（1）控制台输出

（2）CSV 文件输出效果

四、常见问题与解决方案

4.1 CSV 中文乱码问题

4.2 爬取数据为空

4.3 爬取速度过快被限制

五、总结与扩展

5.1 实战总结

5.2 扩展方向

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

前言

摘要

一、技术栈与环境准备

1.1 核心库介绍

1.2 环境要求

二、爬虫基础原理与合规性说明

2.1 爬虫核心流程

2.2 合规爬取说明

三、实战代码实现

3.1 完整代码

3.2 代码核心原理解析

（1）请求模块（get_page_html 函数）

（2）解析模块（parse_movie_data 函数）

（3）存储模块（write_to_csv 函数）

（4）主函数（crawl_douban_top250 函数）

3.3 代码运行结果

（1）控制台输出

（2）CSV 文件输出效果

四、常见问题与解决方案

4.1 CSV 中文乱码问题

4.2 爬取数据为空

4.3 爬取速度过快被限制

五、总结与扩展

5.1 实战总结

5.2 扩展方向

热门文章

文章分类

标签云

相关文章

需要专业的网站建设服务？