【python网络爬虫三】爬取动态数据及数据入库

在平时，使用python爬取数据时，大多数都是动态的网站，今天采集了一个动态网站，使用基本的urllib.request()函数，获取不了想要的数据。这时候，就意识到了这样纸是不行滴。这样就引入了selenium...

1、selenium是什么？

selenium是web自动化测试工具集，测试直接在浏览器中，像是真正的用户在操作一样，支持的浏览器IE,chrome,FireFox等。我认为还是在于通过这种模拟浏览器的形式获取html，可以把js里的内容也获取到；而通过urllib方式模拟，获取不到里面的js、css代码，达不到全面抓取的效果（目前只使用这些，木有往深了研究）

2、selenium安装及如何支持浏览器？

（1）因为本人是在windows下学习的python，所有只安装在windows下做了安装，在cmd中找到python目录，输入命令:

pip install -U selenium

（2）selenium是使用浏览器的驱动来操作浏览器上的元素的。默认selenium包含firefox浏览器的驱动，可以直接使用。要是在其他浏览器上使用需要手动安装驱动。

安装chrome浏览器驱动，下载chromedriver（根据自己的chrome的版本下载不同的chromedriver驱动），解压会得到chromedriver.exe，将chromedriver.exe放到安装的python目录下（c:\Python35）

3、selenium的缺点

selenium的缺点，selenium调用浏览器，跟我们手动打开浏览器效果是一样的，从开启到加载完毕需要好几秒时间，但是它就是辣么傲娇，加载不完后面的程序就不走，如果几秒没有啥问题，但是循环的话，这种效率就低的不要不要了。

4、简单的demo

更多相关文章

随机推荐