【求助】python xpath如何提取html中的如下的内容?
16lz
2021-01-22
如下的一段html:
想提取其中的“正文”:LGG4产品概要
////////////////////////////////////////////////////////
////////////////////////////////////////////////////////
使用的python代码如下:
有些线索:
代码中获取的desc_list为一个list,
只有两个元素,分别对应html中的“图文式”和“列表式”两段,
但就是获取不到“LGG4产品概要”这段信息。
请问,我该如何获取“LGG4产品概要”这段信息啊?
下面的v是指desc_list[0].
help(v)显示:
所以text是第一个<a>之前的text,当然是空的.
可以用下面的代码找出所有不在子节点中的text:
<h2class="Left-title"id="baseParamInfo">
<aclass="jishujishu2"target="_self"href="http://product.cnmo.com/1622/1621678/canshu.shtml">图文式<em></em></a>
<aclass="jishucur"target="_self"href="javascript:void(0);">列表式</a>
LGG4产品概要</h2>
想提取其中的“正文”:LGG4产品概要
////////////////////////////////////////////////////////
////////////////////////////////////////////////////////
使用的python代码如下:
fromlxml.html.soupparserimportfromstring
content=#crawlpageandreadhtml
root=fromstring(content)
desc_list=root.xpath('//*[@id="baseParamInfo"]')
title=desc_list[0].text#问题:获取的title为空字符串
有些线索:
代码中获取的desc_list为一个list,
只有两个元素,分别对应html中的“图文式”和“列表式”两段,
但就是获取不到“LGG4产品概要”这段信息。
请问,我该如何获取“LGG4产品概要”这段信息啊?
2 个解决方案
#1
下面的v是指desc_list[0].
help(v)显示:
所以text是第一个<a>之前的text,当然是空的.
可以用下面的代码找出所有不在子节点中的text:
In[91]:printv.text+''.join([child.tailforchildinv])
LGG4产品概要
更多相关文章
- 如何在数组中存储产品数量
- (phpQuery)对网站产品信息采集代码的优化
- Mysql--可用的 MySQL 产品和专业服务
- 如何在产品和类别应用程序树中将1个表连接到(2个不同的表作为一个
- 为独立的“产品”打包django项目及其依赖项
- 软交换FreeSWITCH系统概要和源代码分析预备知识