更改

百度百科Scrapy

添加90字节, 2020年1月14日 (二) 03:29
无编辑摘要
execute('scrapy crawl 所创建的py文件名'.split())
最后,运行这个文件,可以看到相应的数据就输出了出来。
==Review数据==
查看一下数据:scraped_data.json。
关注一下数据,你会发现,所有字段都是lists(除了url是直接赋值),这是因为selectors返回的就是lists格式,如果你想存储单独数据或者在数据上增加一些解释或者清洗,可以使用Item Loaders
=更多=
你也看到了如何使用Scrapy从一个网站提取和存储数据,实际上,Scrapy提供了许多强大的特性,让它更容易和高效的抓取:[1]
1>内建 selecting and extracting,支持从HTML,XML提取数据</dr>2>内建Item Loaders,支持数据清洗和过滤消毒,使用预定义的一个过滤器集合,可以在所有蜘蛛间公用</dr>3>内建多格式generating feed exports支持(JSON, CSV, XML),可以在后端存储为多种方式(FTP, S3, local filesystem)</dr>4>针对抓取对象,具有自动图像(或者任何其他媒体)下载automatically downloading images的管道线</dr>5>支持扩展抓取extending Scrap,使用signals来自定义插入函数或者定义好的API(middlewares, extensions, and pipelines)</dr>
6>大范围的内建中间件和扩展,基于但不限于cookies and session handling
HTTP compression
crawl depth restriction
and more
7>强壮的编码支持和自动识别机制,可以处理多种国外的、非标准的、不完整的编码声明等等</dr>8>可扩展的统计采集stats collection,针对数十个采集蜘蛛,在监控蜘蛛性能和识别断线断路?方面很有用处</dr>9>一个可交互的XPaths脚本命令平台接口Interactive shell console,在调试撰写蜘蛛上是非常有用</dr>10>一个系统服务级别的设计,可以在产品中非常容易的部署和运行你的蜘蛛</dr>11>内建的Web service,可以监视和控制你的机器人</dr>12>一个Telnet控制台Telnet console,可以钩入一个Python的控制台在你的抓取进程中,以便内视或者调试你的爬虫</dr>13>支持基于Sitemap的网址发现的爬行抓取</dr>14>具备缓存DNS和resolver功能</dr>==参考资料==[1] (美)Ryan Mitchell.Python网络数据采集.人民邮电出版社,2016.3</dr>[2] (美)迪米特里奥斯·考奇斯·劳卡斯 .《精通Python爬虫框架Scrapy》.人民邮电出版社,2018.2</dr>[3] 胡松涛 .PYTHON 网络爬虫实战 .清华大学出版社, 2017.1</dr>
----
[https://baike.baidu.com/item/scrapy/7914913?ivk_sa=1022817p 百度百科Scrapy]
23,882
个编辑