更改

百度百科Scrapy

添加16字节, 2020年1月14日 (二) 03:26

无编辑摘要

Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。[2]

中文名抓取抓取~~外文名~~外文名scrapy~~scrapy~~基本功能数据挖掘~~数据挖掘~~特点特点应用框架~~应用框架~~应用应用数据挖掘、监测和自动化测试 ~~数据挖掘、监测和自动化测试~~==基本功能==

Scrapy是一个为爬取网站数据、提取结构性数据而设计的应用程序框架，它可以应用在广泛领域：Scrapy 常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫，抓取指定网站的内容或图片。[3]

尽管Scrapy原本是设计用来屏幕抓取（更精确的说，是网络抓取），但它也可以用来访问API来提取数据。

==Scrapy架构==

Scrapy Engine(引擎)：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Downloader Middlewares（下载中间件）：一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：一个可以自定扩展和操作引擎和Spider中间通信的功能组件。[1] [2]

==如何开始==

新建项目：新建一个新的爬虫项目

明确目标（编写items.py）：明确你想要抓取的目标

23,882

个编辑