<html>
<head>

</head>

<body>.....

<li>......</li>
<h2>
我需要的内容
</h2>
<p>
我需要的内容
</p>
<h3>
我需要的内容
</h3>

......

</body>
</html>
应该如何写正则表达式来提取我需要的内容呢?
望各位大侠指教。
我之前写的m=re.findall(r'(?<=<p>).+?(?=</p>)',ss,re.S),只能提取<p>和</p>之间的内容
----------------------------------
Double活动:
原帖分数:20
加分:20

6 个解决方案

#1


m=re.findall(r'(?<=<p>).+?(?=</p>)|(?<=<h2>).+?(?=</h2>)|(?<=<h3>).+?(?=</h3>)',ss)

更多相关文章

  1. python将回车作为输入内容
  2. 简单的python爬取网页字符串内容并保存
  3. 从0开始的Python学习019更多的Python内容2
  4. Python MOOC简单获取网页内容并以html格式保存在本地
  5. python爬取csdn的博客内容
  6. Linux 查询文件内容重复数 uniq
  7. linux文件系统内容
  8. linux清空日志文件内容 比如log日志
  9. 是否遇到过MySQL workbench text字段不能直接放入json格式内容

随机推荐

  1. 【Android】Android和PHP开发最佳实践完
  2. Android studio--将项目生成为jar包
  3. Android 酷炫 倒计时的实现
  4. android删除android拦截短信并删除该条短
  5. Android之Animation
  6. RK3288[android 7.1]调试笔记 强制横屏
  7. No IDEA annotations attached to the JD
  8. Android:BroadcastReceiver 随记
  9. android开发积累4-android使用HttpURLCon
  10. Android中TextView中内容不换行的解决方