众所周知,Python有很多框架可以使用,比如说Scrapy。它是一个适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从网页中提取结构化的数据,用途十分广泛,那么你知道Scrapy有什么功能吗?Scrapy的架构是什么?

  Scrapy是一个适用抓取网站数据、提取结构性数据的应用程序框架,它可以应用在广泛的领域,Scrapy常应用在包括数据挖掘、信息处理和存储历史数据等一系列的程序中,通常我们可以很简单的通过Scrapy框架实现一个爬虫,抓取指定网站的内容或图片。

  Scrapy的架构有哪些?

  Scrapy Engine:负责Spider、itemPipeline、Downloader、Scheduler中间的通讯,信息、数据传递等;

  Scheduler:负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排序,入队,当引擎需要时,交还给引擎;

  Downloader:负责下载Scrapy Engine发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine,由引擎交给Spider来处理;

  Spider:负责处理Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler;

  Item Pipeline:负责处理Spider中获取的item,并进行后期处理的地方;

  Downloader Middlewares:一个可以自定义扩展下载功能的组件;

  Spider Middlewares:一个可以自定扩展和操作引擎和Spider中间通信的功能组件。

©著作权归作者所有:来自51CTO博客作者mb5fd1925b5d585的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. InnoDB存储引擎简介
  2. 畅销3年的Python分布式爬虫课程 Scrapy打造搜索引擎
  3. 使用 Redis 实现一个轻量级的搜索引擎,牛逼啊!
  4. 基于 Apache Flink 和规则引擎的实时风控解决方案
  5. 你说的 Flink 和搜索引擎有什么关系
  6. 什么是爬虫?Python爬虫的工作流程怎样?
  7. Linux命令行下抓取HTTP流量的工具--httpry
  8. 无须代码,一键生成微信好友图片墙!
  9. android抓取网络通讯包

随机推荐

  1. Android的常用基本控件ImageView、ListVi
  2. Android Activity全屏和设置背景色
  3. Android---网络编程之Retrofit2整体结构
  4. Android(安卓)Tween 动画 (渐变、缩放、
  5. 聚焦 Android 11: Android 开发者工具
  6. Android * HandleMessage的模型
  7. TextView常用属性介绍
  8. layout中设置图片自适应大小,并且设置最大
  9. AndroidUi(2)-圆角矩形
  10. EditView属性大全