发新话题 回复该主题

微博博主页面列表信息采集中“展开全文”的XPATH处理 [复制链接]

1#
在某微博博主页面,进行列表内容提取有的内容是需要点击展开全文才能看到的,发现代码如下:

<div class="WB_text W_f14" node-type="feed_list_content" nick-name="TFBOYS-易烊千玺">
<div class="WB_text W_f14" node-type="feed_list_content_full">


第一行是div[4],没有全部展开全文的,第二行是div[5],是全部的内容。


整个列表页的内容定位可以用node-type属性及属性值准确定位。

但怎样才能即定位到其他内容,又能定位到展开后的全文内容?

即有node-type="feed_list_content_full"的时候定位该区块内容,没有这个的时候,定位 node-type="feed_list_content"的内容?

盼回复啊~!
分享 转发
TOP
2#

回复 1楼152*****007的帖子

先做一个循环,将所有的【展开全文】点一遍,将全部微博内容采集下来。


然后再采微博列表,定位XPath为:
//div[contains(@node-type,'feed_list_content')][last()]

这里的关键是contains函数和last函数的组合运用,可再深入学习一下XPath函数哟~
最后编辑Se**ie 最后编辑于 2019-12-03 17:54:56
TOP
发新话题 回复该主题