异步网络爬虫框架scrapy
2026/6/24 5:44:30 网站建设 项目流程

1、安装

python -m pip install scrapy

Scrapys入门教程

2、创建项目

scrapy startproject mySpider

3、步骤

3.1、先设置要爬取的字段

3.2、写爬虫逻辑

cd 进入spiders 文件

scrapy genspider 爬虫名称 "目标域名"

scrapy genspider itcast "https://www.itheima.com/teacher.html"

运行项目:

scrapy crawl 项目名称

scrapy crawl itcast

或者简单运行项目的方法:新建main.py文件 输入以下代码

3.2.1、注意点

  • scrapy.Request只是生成请求对象,不会立刻发请求;

  • Scrapy 是异步框架,要获取接口数据必须用yield把请求抛给引擎,再写回调函数接收返回的 JSON;

传递数据

将数据传入items文件

打开这个设置

pipelines才能接收到数据

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询