企查查,一个查询企业信息的网站,这个网站也是网络爬虫选择采集的对象,这个网站反爬提别厉害,没有一定的爬虫技术,是无法采集成功的。
网络爬虫从企查查采集企业信息,如果想要看到完成的企业信息就需要登录后点击详情才能看到信息,但是只能看到部分的信息,但是登录就会出现验证码,如果是爬虫行为就很容易被识别出来,这时候就需要使用到cookie进行登陆,使用cookie登陆,服务器会认为你是一个已登陆的用户,所以就会返回给你一个已登陆的内容。因此,需要验证码的情况可以使用带验证码登陆的cookie解决。登陆之后获取企业信息的页面源码,解析所采集的数据,获取到企业的名称和数据代码,处理好验证码,避免爬虫行为被限制,大部分网站均限制了IP的访问量,对于爬虫频繁访问,导致被网站限制,我们还可以通过使用爬虫代理来解决。然后将采集的数据信息保存到文件中即可。
简单来说采集企查查的步骤很简单:
1、使用COOKIE进行登陆并处理好验证码
2、使用爬虫代理
3、采集企业信息页面
4、解析所采集的数据
5、储存采集的数据信息
以下是采集企查查的代码仅供参考:
` #! -- encoding:utf-8 --
import requests
import random
import requests.adapters

#要访问的目标页面targetUrlList=["https://httpbin.org/ip","https://httpbin.org/headers","https://httpbin.org/user-agent",]#代理服务器(产品官网www.16yun.cn)proxyHost="t.16yun.cn"proxyPort="31111"#代理隧道验证信息proxyUser="username"proxyPass="password"proxyMeta="http://%(user)s:%(pass)s@%(host)s:%(port)s"%{"host":proxyHost,"port":proxyPort,"user":proxyUser,"pass":proxyPass,}#设置http和https访问都是用HTTP代理proxies={"http":proxyMeta,"https":proxyMeta,}#访问三次网站,使用相同的Session(keep-alive),均能够保持相同的外网IPs=requests.session()#设置cookiecookie_dict={"JSESSION":"123456789"}cookies=requests.utils.cookiejar_from_dict(cookie_dict,cookiejar=None,overwrite=True)s.cookies=cookiesforiinrange(3):forurlintargetUrlList:r=s.get(url,proxies=proxies)printr.text`

更多相关文章

  1. 给大家分享一个一键采集哔哩哔哩短视频素材的软件
  2. 网站被百度飓风算法2.0命中,已做完整改措施,看看几天恢复
  3. 亚马逊商品销售数据爬虫分析报告
  4. 网易严选商品详情采集工具
  5. 基于云原生日志分类处理方案与落地实践
  6. 什么是MongoDB?Python爬虫为什么使用MongoDB?
  7. Python爬虫的框架有哪些?推荐这五个!
  8. 基于golang分布式爬虫系统的架构体系v1.0
  9. Kubernetes 指标采集组件的部署

随机推荐

  1. [转]Android(安卓)WiFi 电源管理
  2. 羊老姆上线:抄起键盘就编译JDK源码,结果上
  3. 函数的学习
  4. rollup是面向library的?!
  5. lerna入门指南
  6. react-redux源码解读
  7. Web Components
  8. 微信公众号自动回复图文消息
  9. JAVA虚拟机体系结构
  10. 最近厚着脸皮联系了不少同学