发新话题 回复该主题

推特爬取评论 [复制链接]

1#
我爬取推特一篇推文的评论的时候,因为评论很多,所以需要多次(20次)滚动到页面底部(要在登录状态),但是我遇到一个问题:就是我把页面展开了,大概有几百个评论,但是主页面的div块只有二十多个小div。但是我对第一个评论以及倒数第几个评论进行xpath定位的时候,他们都定位到了同一个(比如说上面说的二十多个小div之一)。但我看微博评论的例子时,他是页面展开后,有多少个评论就有多少个div块。所以这种情况,我应该怎么办啊。
分享 转发
TOP
2#

我早就该看论坛的,虽然不知道怎么办,但我知道这两天死活获取不到的原因了
TOP
3#

我试了一天了,我一条数据也抓取不到哎,不说翻页的事,就是打开一篇推特,然后点击一个标题,采集数据,都采集不到。我找到点击数据的自定义选项,把里面的路径复制出来放到火狐中,果然匹配不到那个标题。而且,我发现我用火狐自带的(inspect in firepath)生成的路径,按下回车之后,竟然也不能匹配。真的太皮了。
我换了一个国内网站,无论是八爪鱼还是火狐自动生成的都能匹配。
但是最皮的是我用火狐自带的画圈圈,定位一个标题,火狐浏览器能匹配,所以我把他放到八爪鱼,却还是什么都抓取不到。
太难了!!!
TOP
4#

我重新描述一下我的问题吧:
在未登录状态下:我要爬取推特评论,可以一直往下拉取,一直到底,分析网页结构,差不多有这么多个li标签,即理论上我是可以抓取的。但是我用八爪鱼抓取的时候,点开网页带上了滚动选项,但是并没有发生滚动,要么我手动滚动否则就是只能抓取前十几条。
如果在登陆状态:我用谷歌的开发者工具发现,无论我怎么下翻,这里包含评论的HTML块始终都是十几个div(未登录时是li),而且,每次随着我下拉一页,这些div会刷新。所以,在登陆状态下,点开网页的确能够滚动了,但是获取不到任何数据。
TOP
5#

回复 4楼苏**是的帖子

我这边现在翻墙特别不方便,有空我研究明白了回您哈
TOP
发新话题 回复该主题