发新话题 回复该主题

云采集大量缺失数据 [复制链接]

1#
同一个采集规则用单机采集数据完整,使用云采集时就缺的特别多,36列仅能采集到前两列,求助!!!
分享 转发
TOP
2#

回复 1楼夏***深的帖子


1.网络环境不同,网页源码有变化,导致原来的xpath定位不准,造成云采集无数据或漏数据。

1.1(网页源码大范围改变)网站页面信息会根据网络IP所在地域自动匹配。云采集时会随机分配地域,由于不同地域的网页结构不一样,从而导致单机能采,云采集部分能采或都不能采。

解决方案:A.规则中设置记录cookie。参考:http://www.bazhuayu.com/tutorial/cookdl.aspx?t=1

B.增加步骤,如使用点击元素,点击选中某个地址。

1.2(网页源码微小变动)网络环境不同,网页源码微小变动。

解决方案:此类问题通常重写xpath路径。如将绝对路径(html/body/div[5]/div[3]/div[2]/div[1]

修改成相对路径(.//*[@id='tab-2']/div)。尽量使用较为通用的路径进行定位。

Xpath使用,参考:http://bbs.bazhuayu.com/showtopic.aspx?topicid=2559


2.规则中记录的cookie失效(需要登录的网站,需远程到云主机才能发现,自己更换电脑也可以进行验证)

2.1 有些cookie只允许单浏览器或单IP登录。即A浏览器登录后就不能在B浏览器登录,若在B浏览器中强制登录,A浏览器中将被强制下线。(单IP同理)

解决方案:做规则时勾选上云采集不拆分任务。

2.2 本地调试cookie有效,云上无效。

解决方案:在规则中设置登录流程,参考:http://www.bazhuayu.com/tutorial/dgwbhdl.aspx?t=0


3.规则设置不够完善,没有考虑到云上网速有时出现较慢的情况。

解决方案:在规则中设置执行前等待或出现某某元素


4.IP被封(如,阿里旗下网站,1688等。需要链接到远程主机检测,请联系客服进行验证)

解决方案:A.使用代理IP(该方法仅限单机采集),具体方法可以参考这个教程:http://www.bazhuayu.com/tutorial/dlipsm.aspx?t=1
B.过段时间再采集,看能否找出网站的解封规律。


5.网站出现验证码。

请参考验证码教程。

TOP
发新话题 回复该主题