发新话题 回复该主题

求助一下就是当网页把一个网址分成有的四页有的三页如何让它判断不重复采集 [复制链接]

1#
比如说我要采集一个网页,我设置的规则提取比如说:www.123.com/1一直到www.123.com/10000是打开网页--提取文字---点击网页中下一页翻页-------提取文字,因为该网站分页了就例如www.123.com/1-1www.123.com/1-2,但是有的网页分成三页有的四页,我要是设置四次翻页采集的话有的三页和两页的就重复采集了,要是设置两次翻页采集的话四页的采集不全,现在求解如何不使他重复采集
分享 转发
TOP
2#

回复 1楼dd****c6的帖子

不好意思,您的网址我打不开。

对于需要翻页的网页,可以不设置翻页次数,八爪鱼自动翻页,翻完就结束。
TOP
发新话题 回复该主题