更改

跳转至: 导航搜索

百度百科Scrapy

添加16字节, 2020年1月14日 (二) 03:27
无编辑摘要
存储内容 (pipelines.py):设计管道存储爬取内容
具体如下:
==选择网站==
选择一个网站,如果你需要从某个网站提取一些信息,但是网站不提供API或者其他可编程的访问机制,那么Scrapy可以帮助你提取信息。
==定义数据==
定义你要抓取的数据,第一件事情就是定义你要抓取的数据,在Scrapy这个是通过定义Scrapy Items来实现的。[2]
这就是要定义的Item
description = Field()
size = Field()
==撰写蜘蛛==
撰写一个蜘蛛来抓取数据
下一步是写一个指定起始网址的蜘蛛,包含follow链接规则和数据提取规则。
yield torrent
因为很简单的原因,我们有意把重要的数据定义放在了上面。
==运行蜘蛛==
运行蜘蛛来抓取数据
我们需要创建一个运行文件,放在setting同级目录下,用来单独运行蜘蛛:
23,882
个编辑

导航菜单