python3编写网络爬虫21-scrapy框架的使用

一、scrapy框架的使用

前面我们讲了pyspider 它可以快速的完成爬虫的编写不过pyspider也有一些缺点例如可配置化不高异常处理能力有限
对于一些反爬虫程度非常强的网站爬取显得力不从心

1. scrapy框架介绍

scrapy是一个基于Twisted 的异步处理框架是纯python实现的爬虫框架架构清晰模块之间耦合度低可拓展性极强
可以灵活完成各种需求只需要定制开发几个模块就可以轻松实现一个爬虫

1.1 架构介绍

可以分为如下几个部分

Engine 引擎 处理整个系统的数据流处理 触发事务 是整个框架的核心

item 项目 定义了爬取结果的数据结构 爬取的数据会被赋值成该Item对象

Scheduler 调度器 接受引擎发过来的请求并将其加入队列中 在引擎再次请求的时候 将请求提供给引擎

Download 下载器 下载网页内容 并将网页内容返回给蜘蛛

Spider 蜘蛛 其内定义了爬取的逻辑和网页解析规则 它主要负责解析响应 并生成提取结果和新的请求

item Pipline 项目管理 负责处理由蜘蛛从网页中抽取的项目 它的主要任务是清洗 验证 和存储数据

Downloader Middlewares 下载器中间件 位于引擎和下载器之间的钩子框架 主要处理引擎与下载器之间的请求和响应

Spider Middlewares 蜘蛛中间件 位于引擎和蜘蛛之间的钩子框架 主要处理蜘蛛输入的响应和输出结果以及引得请求

更多相关文章

随机推荐