【求助】python xpath如何提取html中的如下的内容？

如下的一段html：

<h2class="Left-title"id="baseParamInfo">

		<aclass="jishujishu2"target="_self"href="http://product.cnmo.com/1622/1621678/canshu.shtml">图文式<em></em></a>

	<aclass="jishucur"target="_self"href="javascript:void(0);">列表式</a>

	LGG4产品概要</h2>

想提取其中的“正文”：LGG4产品概要

////////////////////////////////////////////////////////
////////////////////////////////////////////////////////

使用的python代码如下：

fromlxml.html.soupparserimportfromstring



content=#crawlpageandreadhtml



root=fromstring(content)



desc_list=root.xpath('//*[@id="baseParamInfo"]')



title=desc_list[0].text#问题：获取的title为空字符串

有些线索：
代码中获取的desc_list为一个list，
只有两个元素，分别对应html中的“图文式”和“列表式”两段，
但就是获取不到“LGG4产品概要”这段信息。

请问，我该如何获取“LGG4产品概要”这段信息啊？

2 个解决方案

#1

下面的v是指desc_list[0].

help(v)显示:

引用

|tail
|Textafterthiselement'sendtag,butbeforethenextsibling
|element'sstarttag.ThisiseitherastringorthevalueNone,if
|therewasnotext.
|
|text
|Textbeforethefirstsubelement.Thisiseitherastringor
|thevalueNone,iftherewasnotext.

所以text是第一个<a>之前的text,当然是空的.

可以用下面的代码找出所有不在子节点中的text:



In[91]:printv.text+''.join([child.tailforchildinv])







LGG4产品概要

2 个解决方案

#1

更多相关文章

随机推荐