import re
import urllib.request

# ------ 获取网页源代码的方法 ---
def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

# ------ getHtml()内输入任意帖子的URL ------
html = getHtml("https://tieba.baidu.com/p/5352556650")
# ------ 修改html对象内的字符编码为UTF-8 ------
html = html.decode('UTF-8')

# ------ 获取帖子内所有图片地址的方法 ------
def getImg(html):
    # ------ 利用正则表达式匹配网页内容找到图片地址 ------
    reg = r'src="([.*\S]*\.jpg)"'
    imgre = re.compile(reg);
    imglist = re.findall(imgre, html)
    return imglist

imgList = getImg(html)
imgName = 0
for imgPath in imgList:
    # ------ 这里最好使用异常处理及多线程编程方式 ------
    try:
        f = open('D:\\Temp\\'+ str(imgName)+".jpg", 'wb')
        f.write((urllib.request.urlopen(imgPath)).read())
        print(imgPath)
        f.close()
    except Exception as e:
        print(imgPath+" error")
    imgName += 1

print("All Done!")

更多相关文章

  1. python进阶——利用网页爬虫写天气预报采集器
  2. python中查看变量内存地址的方法
  3. CentOS 7下配置IP地址
  4. 如果后台的SVN服务器IP地址更改了,如何修改客户端的连接url呢?
  5. Linux 修改ip地址
  6. linux配置虚拟IP地址方法
  7. 使用.NetCore在Linux上写TCP listen 重启后无法绑定地址
  8. Linux系统下用C语言获取MAC地址
  9. Red Hat Linux下如何修改网卡MAC地址

随机推荐

  1. JavaScript中的数学对象中的方法
  2. 用于Internet Explorer的javaScript中的i
  3. BootStrap3.0学习--JavaScript 插件
  4. 关于洗牌算法的错误认识
  5. Javascript知识汇总------面向对象中继承
  6. 在关联数组中移动元素[重复]
  7. 对JavaScript优化及规范的一些感想
  8. 键盘出现时,UIWebView滚动。导致点击偏移
  9. 我如何捕获并插入Meteor.Error警报从Mete
  10. JavaScript 实现GridView汇总