(爬虫实例300例)(爬虫实战案例)

Scrapy 是一个完整的爬虫框架，由5个核心组件 2个中间件组件组成。本文将主要对 Scrapy 项目的各组件进行说明。在爬虫项目中，它的结构如下图所示。

（1）spiders 文件夹：管理各种爬虫文件，每个网站具体的爬取逻辑都写在各自的爬虫文件中。上图中的 movie.py 就是写了爬取豆瓣电影 Top250 的具体爬取逻辑。

（2）items.py ：用来定义需要爬取的数据结构。

（3）main.py ：用于调试和运行爬虫项目。

（4）middlewares.py ：已经预先定义了该爬虫项目的 Spider中间件（Spider Middleware）和下载中间件（Downloader Middleware）。Spiders Middlewares 是自定义扩展引擎和 Spider 中间通信的功能组件。例如，进入 Spider 的 response 和从 Spider 出去的 request，都可以在中间做一些修改。Download Middlewares 是一个自定义扩展组件，是封装代理 IP、HTTP 等用于隐藏自己的地方。

（5）pipelines.py ：作用是将每一个 item 对象存储到 MySQL 或 MongoDB 数据库中。

（6）settings.py ：对整个爬虫项目进行设置。

Scrapy 项目中各组件之间的数据流按如下过程进行交互：

（1）爬虫文件中 start_urls 的值被封装成请求（request）对象交给引擎（Engin）。一个 URL 对应一个请求（request）对象。

（2）引擎（Engin）拿到请求（request）对象之后，将其全部交给调度器（Scheduler）。

（3）调度器（Scheduler）拿到所有请求（request）对象后，通过内部的过滤器过滤掉重复的 URL，最后将去重后的 URL 放入 request 队列中。

（4）引擎（Engin）从调度器（Scheduler）的队列中调度出一个 request 请求交给下载器（Downloader）进行下载，其间会经过下载中间件（Downloader Middleware），使用 process_ request 方法进行处理。

（5）当下载器（Downloader）下载完成以后，其间还会经过下载中间件（Downloader Middleware），使用 process_response 方法将 response 对象返回给引擎。

（6）引擎（Engin）将 response 对象交给爬虫 Spider 进行解析，解析成功后产生 item，随后 Spiders 将 item 交给引擎（Engin）。

（7）引擎（Engin）将 item 交给管道（Pipelines），管道（Pipelines）拿到 item 后进行数据的持久化存储，存储到 MySQL 或 MongoDB 数据库。

（8）对于新的请求（request），Spider 会将新的请求（request）发送给引擎（Engin），然后引擎（Engin）再将这些新的请求（request）发送到调度器（Scheduler）进行排队。然后重复（1）～（7）操作，直到获取到全部的信息为止。

以上是关于 Scrapy 组件数据流走向的说明，仅供参考。

现在我们举个完整的案例（用PyCharm进行Debug和编译运行）：

爬取豆瓣电影 Top250 第一页的前 3 名数据，包括电影序号、电影名称、电影的介绍、电影星级、电影的评论数、电影的描述，最终结果输出为CSV文件，如下图所示：

项目编写步骤如下：

（1）按“Win + R”快捷键，打开“运行”对话框，输入“cmd”，单击“确定”按钮，打开 CMD 命令行窗口，输入以下命令，用以建立项目名称：douban。

scrapy startproject douban

（2）定位到该项目：cd douban

（3）建立新的爬虫：movie：scrapy genspider movie movie.douban.com/top250

（4）打开 PyCharm，执行“File”→“Open”命令，选择该项目所在的位置，单击“Ok”按钮，定位到movie.py，结果如下图所示：

（5）在 PyCharm 中选择 items.py，在 items.py 中定义好数据结构，代码如下：

（6）在 setting.py 中设置 USER_AGENT，它的值可以在目标网页（https://movie.douban.com/ top250）中获取。在浏览器中打开目标网页，按“F12”键，选择“Network”选项卡，按“F5”键刷新一下网页。选择 Name 是 top250 的，在其 Headers 中可以查看到当前浏览器的 User-Agent，如下图所示: