更改

百度百科Scrapy

添加90字节, 2020年1月14日 (二) 03:29

无编辑摘要

execute('scrapy crawl 所创建的py文件名'.split())

最后，运行这个文件，可以看到相应的数据就输出了出来。

==Review数据==

查看一下数据：scraped_data.json。

关注一下数据，你会发现，所有字段都是lists（除了url是直接赋值），这是因为selectors返回的就是lists格式，如果你想存储单独数据或者在数据上增加一些解释或者清洗，可以使用Item Loaders

=更多=

你也看到了如何使用Scrapy从一个网站提取和存储数据，实际上，Scrapy提供了许多强大的特性，让它更容易和高效的抓取：[1]

1>内建 selecting and extracting，支持从HTML，XML提取数据</dr>2>内建Item Loaders，支持数据清洗和过滤消毒，使用预定义的一个过滤器集合，可以在所有蜘蛛间公用</dr>3>内建多格式generating feed exports支持(JSON， CSV， XML)，可以在后端存储为多种方式(FTP， S3， local filesystem)</dr>4>针对抓取对象，具有自动图像(或者任何其他媒体)下载automatically downloading images的管道线</dr>5>支持扩展抓取extending Scrap，使用signals来自定义插入函数或者定义好的API(middlewares， extensions， and pipelines)</dr>

6>大范围的内建中间件和扩展，基于但不限于cookies and session handling

HTTP compression

crawl depth restriction

and more

7>强壮的编码支持和自动识别机制，可以处理多种国外的、非标准的、不完整的编码声明等等</dr>8>可扩展的统计采集stats collection，针对数十个采集蜘蛛，在监控蜘蛛性能和识别断线断路？方面很有用处</dr>9>一个可交互的XPaths脚本命令平台接口Interactive shell console，在调试撰写蜘蛛上是非常有用</dr>10>一个系统服务级别的设计，可以在产品中非常容易的部署和运行你的蜘蛛</dr>11>内建的Web service，可以监视和控制你的机器人</dr>12>一个Telnet控制台Telnet console，可以钩入一个Python的控制台在你的抓取进程中，以便内视或者调试你的爬虫</dr>13>支持基于Sitemap的网址发现的爬行抓取</dr>14>具备缓存DNS和resolver功能</dr>==参考资料==[1] （美）Ryan Mitchell．Python网络数据采集．人民邮电出版社，2016.3</dr>[2] （美）迪米特里奥斯·考奇斯·劳卡斯．《精通Python爬虫框架Scrapy》．人民邮电出版社，2018.2</dr>[3] 胡松涛．PYTHON 网络爬虫实战．清华大学出版社， 2017.1</dr>

----

[https://baike.baidu.com/item/scrapy/7914913?ivk_sa=1022817p 百度百科Scrapy]

明华

管理员

23,882

个编辑

更改

百度百科Scrapy

导航菜单

个人工具

名字空间

变种

视图

更多

搜索

导航

站群链接

工具