23,882
个编辑
更改
→更多
5>支持扩展抓取extending Scrap,使用signals来自定义插入函数或者定义好的API(middlewares, extensions, and pipelines)<br>
6>大范围的内建中间件和扩展,基于但不限于cookies and session handling
HTTP compression<br>HTTP authentication<br>HTTP cache<br>user-agent spoofing<br>robots.txt<br>crawl depth restriction<br>and more<br>7>强壮的编码支持和自动识别机制,可以处理多种国外的、非标准的、不完整的编码声明等等</drbr>8>可扩展的统计采集stats collection,针对数十个采集蜘蛛,在监控蜘蛛性能和识别断线断路?方面很有用处</drbr>9>一个可交互的XPaths脚本命令平台接口Interactive shell console,在调试撰写蜘蛛上是非常有用</drbr>10>一个系统服务级别的设计,可以在产品中非常容易的部署和运行你的蜘蛛</drbr>11>内建的Web service,可以监视和控制你的机器人</drbr>12>一个Telnet控制台Telnet console,可以钩入一个Python的控制台在你的抓取进程中,以便内视或者调试你的爬虫</drbr>13>支持基于Sitemap的网址发现的爬行抓取</drbr>14>具备缓存DNS和resolver功能</drbr>
==参考资料==
[1] (美)Ryan Mitchell.Python网络数据采集.人民邮电出版社,2016.3</drbr>[2] (美)迪米特里奥斯·考奇斯·劳卡斯 .《精通Python爬虫框架Scrapy》.人民邮电出版社,2018.2</drbr>[3] 胡松涛 .PYTHON 网络爬虫实战 .清华大学出版社, 2017.1</drbr>
----
[https://baike.baidu.com/item/scrapy/7914913?ivk_sa=1022817p 百度百科Scrapy]