[D]用python提取多段字符串该怎么写正则表达式。
16lz
2021-01-22
<html>
<head>
</head>
<body>.....
<li>......</li>
<h2>
我需要的内容
</h2>
<p>
我需要的内容
</p>
<h3>
我需要的内容
</h3>
......
</body>
</html>
应该如何写正则表达式来提取我需要的内容呢?
望各位大侠指教。
我之前写的m=re.findall(r'(?<=<p>).+?(?=</p>)',ss,re.S),只能提取<p>和</p>之间的内容
----------------------------------
Double活动:
原帖分数:20
加分:20
m=re.findall(r'(?<=<p>).+?(?=</p>)|(?<=<h2>).+?(?=</h2>)|(?<=<h3>).+?(?=</h3>)',ss)
<head>
</head>
<body>.....
<li>......</li>
<h2>
我需要的内容
</h2>
<p>
我需要的内容
</p>
<h3>
我需要的内容
</h3>
......
</body>
</html>
应该如何写正则表达式来提取我需要的内容呢?
望各位大侠指教。
我之前写的m=re.findall(r'(?<=<p>).+?(?=</p>)',ss,re.S),只能提取<p>和</p>之间的内容
----------------------------------
Double活动:
原帖分数:20
加分:20
6 个解决方案
#1
m=re.findall(r'(?<=<p>).+?(?=</p>)|(?<=<h2>).+?(?=</h2>)|(?<=<h3>).+?(?=</h3>)',ss)
更多相关文章
- python将回车作为输入内容
- 简单的python爬取网页字符串内容并保存
- 从0开始的Python学习019更多的Python内容2
- Python MOOC简单获取网页内容并以html格式保存在本地
- python爬取csdn的博客内容
- Linux 查询文件内容重复数 uniq
- linux文件系统内容
- linux清空日志文件内容 比如log日志
- 是否遇到过MySQL workbench text字段不能直接放入json格式内容