更改

百度百科Scrapy

添加16字节, 2020年1月14日 (二) 03:27

无编辑摘要

存储内容（pipelines.py）：设计管道存储爬取内容

具体如下：

==选择网站==

选择一个网站，如果你需要从某个网站提取一些信息，但是网站不提供API或者其他可编程的访问机制，那么Scrapy可以帮助你提取信息。

==定义数据==

定义你要抓取的数据，第一件事情就是定义你要抓取的数据，在Scrapy这个是通过定义Scrapy Items来实现的。[2]

这就是要定义的Item

description = Field()

size = Field()

==撰写蜘蛛==

撰写一个蜘蛛来抓取数据

下一步是写一个指定起始网址的蜘蛛，包含follow链接规则和数据提取规则。

yield torrent

因为很简单的原因，我们有意把重要的数据定义放在了上面。

==运行蜘蛛==

运行蜘蛛来抓取数据

我们需要创建一个运行文件，放在setting同级目录下，用来单独运行蜘蛛：

23,882

个编辑