更改

百度百科Scrapy

添加17字节, 2020年1月14日 (二) 03:43

→‎更多

5>支持扩展抓取extending Scrap，使用signals来自定义插入函数或者定义好的API(middlewares， extensions， and pipelines)

6>大范围的内建中间件和扩展，基于但不限于cookies and session handling

HTTP compression HTTP authentication HTTP cache user-agent spoofing robots.txt crawl depth restriction and more 7>强壮的编码支持和自动识别机制，可以处理多种国外的、非标准的、不完整的编码声明等等<~~/dr~~br>8>可扩展的统计采集stats collection，针对数十个采集蜘蛛，在监控蜘蛛性能和识别断线断路？方面很有用处<~~/dr~~br>9>一个可交互的XPaths脚本命令平台接口Interactive shell console，在调试撰写蜘蛛上是非常有用<~~/dr~~br>10>一个系统服务级别的设计，可以在产品中非常容易的部署和运行你的蜘蛛<~~/dr~~br>11>内建的Web service，可以监视和控制你的机器人<~~/dr~~br>12>一个Telnet控制台Telnet console，可以钩入一个Python的控制台在你的抓取进程中，以便内视或者调试你的爬虫<~~/dr~~br>13>支持基于Sitemap的网址发现的爬行抓取<~~/dr~~br>14>具备缓存DNS和resolver功能<~~/dr~~br>

==参考资料==

[1] （美）Ryan Mitchell．Python网络数据采集．人民邮电出版社，2016.3<~~/dr~~br>[2] （美）迪米特里奥斯·考奇斯·劳卡斯．《精通Python爬虫框架Scrapy》．人民邮电出版社，2018.2<~~/dr~~br>[3] 胡松涛．PYTHON 网络爬虫实战．清华大学出版社， 2017.1<~~/dr~~br>

----

[https://baike.baidu.com/item/scrapy/7914913?ivk_sa=1022817p 百度百科Scrapy]

明华

管理员

23,882

个编辑

更改

百度百科Scrapy

导航菜单

个人工具

名字空间

变种

视图

更多

搜索

导航

站群链接

工具