Scrapy使用request对象来爬取web站点。

request对象由spiders对象产生,经由Scheduler传送到Downloader,Downloader执行request并返回response给spiders。

Scrapy架构:

1、Request objects

classscrapy.http.Request(url[,callback,method='GET',headers,body,cookies,meta,encoding='utf-8',priority=0,dont_filter=False,errback])

一个request对象代表一个HTTP请求,通常有Spider产生,经Downloader执行从而产生一个Response。

Paremeters: url(string): 用于请求的URL

callback(callable):指定一个回调函数,该回调函数以这个request是的response作为第一个参数。如果未指定callback,

则默认使用spider的parse()方法。

method(string):HTTP请求的方法,默认为GET(看到GET你应该明白了,过不不明白建议先学习urllib或者requets模块)

meta(dict):指定Request.meta属性的初始值。如果给了该参数,dict将会浅拷贝。(浅拷贝不懂的赶紧回炉)

body(str):the request body.(这个没有理解,若有哪位大神明白,请指教,谢谢)

headers(dict):request的头信息。

cookies(dict or list):cookie有两种格式。

1、使用dict:

request_with_cookies = Request(url="http://www.example.com", cookies={'currency': 'USD', 'country': 'UY'})

更多相关文章

  1. Python执行系统命令:使用subprocess的Popen函数
  2. python传递列表作为函数参数
  3. Python阻止复制对象作为参考
  4. 用python写MapReduce函数——以WordCount为例
  5. Python内置函数介绍
  6. Python学习之路:函数的非固定参数
  7. 函数参数中裸星号的目的是什么?
  8. 创建单独的函数而不是一个大的缓慢处理时间?
  9. 'module'对象没有属性'views' django错误

随机推荐

  1. 11、javascript中字符串常用操作总结、JS
  2. Angular JS复选框 - 模型不默认为false
  3. RegExp:匹配除Javascript中的正则表达式值
  4. 前台 post方法提交却变成了 get 方法
  5. JavaScript的two-sum问题解法
  6. 我可以禁用“后退”按钮浏览器功能吗?
  7. JavaScript实际应用:父子页面交互
  8. JavaScript - 检查是否在全局上下文中
  9. 将一个youtube iframe放在另一个具有关闭
  10. 隐藏时如何暂停jquery计时器