此文承接上文,让我们写一个简简单单的爬虫,循序而渐进不是吗?此次进行的练习是爬取前5页什么值得买网站中的白菜价包邮信息。包括名称,价格,推荐人,时间。

  我们所需要做的工作:1.确定URL并获得页面代码。 2.用正则匹配每件商品我们所需要的内容 3.打印信息 我还是直接上代码吧,具体步骤看注释就好啦!(代码会引用HttpClient.py,可以参考之前的SmartQQ协议一文)!

 1 # -*- coding: utf-8 -*-
2 import re,time,os
3 from HttpClient import HttpClient
4 class Smzdm(HttpClient):
5 def __init__(self):
6 self.__pageIndex = 1
7 self.__Url = "http://faxian.smzdm.com/9kuai9/p"
8
9 #正则得到每页商品信息
10 def __getAllGoods(self,pageIndex):
11 realurl = self.__Url + str(pageIndex)
12 pageCode = self.Get(realurl)
13 pattern = re.compile('<h2 .*?itemName"><a.*?<span .*?black">(.*?)</span><span .*?red">(.*?)</span></a></h2>.*?'+
14 '<div .*?itemUserInfo">.*?<a .*?<span .*?rankTitle">(.*?)</span>.*?<span .*?time">(.*?)</span>',re.S)
15 items = re.findall(pattern,pageCode.decode("utf-8"))
16 for item in items:
17 print item[0],item[1],item[2],item[3]
18
19 def start(self):
20 print("正在读取前五页白菜价包邮,请稍等...")
21 for i in range(1,6):
22 print i
23 self.__getAllGoods(i)
24
25 pc = Smzdm()
26 pc.start()

  执行结果如下:

  是不是感觉,代码怎么这么少,这就搞定了?YES!

  稍微解释一下思路,一般类似于这种网站都是页面+页号构成url。所以定义一个基础url,根据传入的页号构造一个真实的url。通过urllib2模块访问页面得到页面代码,通过构造正则pattern,调用re.findall()函数找到当前页面所有的信息,然后打印出来。一个功能智障,代码简单的爬虫就造好了,easy的会了default的当然就水到渠成了,接下来你可以去试试糗事百科的段子,百度贴吧的帖子,网易新闻的留言等等!另外,我的环境为2.7.10,python3以下需要注意编码问题,到处都是坑!

更多相关文章

  1. 建模分析之机器学习算法(附python&R代码)
  2. 读取python中的unicode文件,该文件以与python源代码相同的方式声
  3. 自动完成在VS代码和Python中的自动化对象
  4. 在生产中是否应该减少服务器代码?
  5. django页面中的'模糊'翻译?
  6. 支持c和python之间的跨语言(c)标记的代码编辑器
  7. 在管理页面中编辑M2M的两面
  8. 【小白自学笔记】【机器学习实战】【Python代码逐行理解】CH02
  9. 三个猜数字游戏代码(Python)

随机推荐

  1. This Android SDK requires And...te ADT
  2. 基于蓝牙socket开发Android蓝牙通信
  3. Android(安卓)Studio Mac快捷键
  4. android-AccessibilityManager
  5. Android练习
  6. Binder驱动的实现
  7. Android之selector标签
  8. android常见的研究方向
  9. layout_alignParentRight android:paddin
  10. C虾仔笔记 - EditText编辑框