发新话题 回复该主题

姗姗来迟的八爪鱼-赞国内第一个真正意义上可视化规则定制的采集器 [复制链接]

1#
       首先申明,本人不是八爪鱼派来的枪手。(一他们没给钱,二他们也请不起我,三SB才在自己论坛里请枪手,枪手都是跑别人地盘上吆喝的)

       再次申明,本文无图无真相,喜欢看图的朋友们读到这可以闪了。

       八爪鱼说白了不过只是个爬虫,最多算个有可视化规则定制的毛毛虫,鄙人见的爬虫估计可以堆满屏幕了。对于绝大多数技术大牛来说,这八爪鱼不如叫八爪虫好,压根无需理会,区区一条虫虫,该踩死踩死,该扔扔。

       但是之前都是废话,但是就是但是。

       但是,我要说,八爪鱼你终于来了,或者说,我终于找到你了

       不敢自夸说自己用遍了爬虫,反正寻觅一款可视化规则定制的毛毛虫一直是本人的夙愿。相信但凡是搞网站建设、数据分析的朋友都有这么一段糟心的经历。本人不是没有编程能力,也写过python,c#的毛毛虫,但是对于绝大多数朋友来说,可视化规则定制一直是寻觅的首选,谁愿意对着黑洞洞的编程窗口琢磨我的数据在哪里呢。
       这慢慢求索的路可以追寻到2003年。那时还是看指环王和加勒比海盗的好时光,国内互联网还只是开始爬,苹果还在兜售它的ipod,诺基亚还是龙头老大。那时不仅国人不知道谷歌,谷歌自己都还在为融资发展求雅虎。周鸿祎的360还在娘胎里。淘宝也才刚刚爬出娘胎(我日,扯远了)。总之,那时我还在用奔腾处理器,几十k流量的电话拨号猫。学院里的老头让搞个爬虫,把雅虎搜索里涉及我们学院的东西全搞下来。老子那时还小,师命不敢违,边打星际边手工一条一条的往下粘贴,当了回手工爬虫。
       时光一晃到了2008年,什么360、百度、淘宝、谷歌啥的好热闹,最重要的是咱们搞了把奥运会。我已然告别学生时代开始教别人了。那年学院要分析未来中国互联网10年增长速度,是10倍,50倍还是100倍。我被分配个采集乱七八糟数据的悲催工作,带着几个学生娃娃,啪啪的编程写工具。学生没日的写,我没日的网上去看去找去参考,力求搞个通用的东西来。于是一大堆名字里带着spider、collector、crawler的老外爬虫引擎铺面而来。最后我们成功搞了个通用的东西出来,样子类似已经末落的网络数据采集大师,现在还挂在学院网站一个无人问津的角落里。

       时光再一晃到了2013年,我草,看客一定疯了。大哥你这是玩我们呢吧。没事,海涵吧,搞网络的都是跳跃思维,比女人玩穿清剧穿越牛逼老去了。是的,2013,我开始帮老婆折腾她的网店。对于一个大学工科毕业的美女,学的那点计算级四级编程早扔姥姥家去了。我又没时间天天帮她整理数据。于是又一顿找。还好那时国内对数据的需求日趋上升,不少朋友开始折腾,而且有所成就。火车头采集、狂人采集、矿工、小猪......我去,那是一个多。但是,注意要但是了。但是,这都不是我想要的可视化采集规则定制的采集器。当时国内唯一我看上的搞可视化规则采集的一个兄弟在firefox下搞了个东东,叫什么我都忘了,后面再不见消息。顺便说下iMacros、Galaxytool这样的玩意实在是让我很无语。还是2013,国内寻求无果的情况下,我眼光飘向了国外,可视化采集规则定制的软件mozenda,virtual web ripper,import.io,WebHarvest.......好吧,长话短说,我连Automation Anywhere这样的软件都没放过,试用一下。还有压根就没人知道的djuggler,顺便吹一下,最后这个djuggler,虽然最后版本永远停在4,但是我的一个朋友一直帮这老外改进到3.3.3,然后世界上再没有人用这软件了。突然想起来国内的邮件客户端dreammail,木头兄弟能挺下来多少证明亚洲人种比欧美人种多出的那份坚持和毅力。mozenda,好东西,有一部分和八爪鱼类似,国外老牛逼的数据采集系统,可惜国内想用,太多太多不可克服的障碍。virtual web ripper,好东西,规则定制那些选项啥的和八爪鱼简直同出一辙(ps:感觉八爪鱼最后还是胜出老大一截,毕竟是国人开发,亚洲程序员细腻的手法令人折服。)除了这2个,还有44个同类软件可以在capterra网站里比较出他们的优劣。在线编辑的直接放弃,不是没钱,是没法快捷支付购买,你们懂的,要visa卡,兄弟我那时候还没有,我只有一张工行的储蓄卡,而且是工资卡。单机版的各种搜crack和keygen,还好用的冰点还原,不然机器上一群木马和广告软件打架也是热闹。

       说了那么多,相信跟我一样遭遇的朋友都心有余悸了吧。我曾经跟火车头、狂人开发者都联系过,我说你们能不能往前再走一步,无奈,国内没有本质区别的采集器与之竞争,加上都生存困难,2家都回复说会在以后改进,这一改就是几年没动静。还有一个小猪浏览器,本来也是非常有潜力,无奈开发的兄弟跑到贵州搞什么公交系统app,我去,伤了我好久的心。

       ok,言归正传。我早已经不再折腾这些采集器什么玩意的程序了,只是今天无意上网转了转,也不知道搜了个什么关键词,百度推广上冒出了个八爪鱼。推广嘛,给钱的东西,能好到哪去?就跟点融网一样,明明要破产了的还在推广。随意进来看看笑话。结果。我想骂,你tmd老子几年前折腾的时候咋早不诞生。八爪鱼结合了mozenda的可视化流程以及virtual web ripper类似的高级选项设置,甚至还没忘掉加上一些老式采集器用惯了的按钮和设置。梦寐以求的可视化流程、可视化规则定制。唉,突然不想继续写了,只想说,继续努力吧。搞好帮助文档和视频。(ps:按国内的水准,录帮助视频的那个妹妹尽心尽力了,但是。又是但是。离像样的国际水准差距还是太大。老板不要扣那妹妹工资,起步期间嘛,加上你自己没教人家)。另外就是,一定要拓宽业务视野,国内数据市场虽然大,但是乍看之下,要么被几头怪兽垄断着能赚大钱的业务,要么是为柴米生存发愁的草根站长拼命的制造垃圾。喜欢这软件和用这款软件的不一定是能决定砸钱在上面的。唉,不妨也加个en后缀,搞点米文、日文、德文的页面,赚些美元、日元、欧元。反正我一直认为墙里开花墙外香,墙外香了墙里自然不用给百度那老爷掏银子。36氪,知乎,虎秀包括小众软件,异次元软件,善用佳软这些个先不论有无良心,有无崇洋媚外的网站应该也会有所关注吧。

       2016.1.14

       有梦为骆驼 (一个很少发声的关心国产小软件命运的人)

       写于遥远的雪国,仅用来怀念过去那些折腾程序的日子。最后对另外一个命运悲催的程序aardio及其作者表示深刻同情
最后编辑ol****lo 最后编辑于 2016-01-14 04:03:13
本主题由 管理员 pe***23 于 2016/9/20 9:45:38 执行 移动主题 操作
分享 转发
TOP
2#

一楼嘛,当然是留给自己的。这又不是什么大众论坛,不会被秒的。
TOP
3#

二楼嘛,就喊一句,用过火车头、狂人等等采集器的朋友就不用喷我了,这么小的天地,还是能容下我的
TOP
4#

三楼嘛,我已经把你八爪鱼吹了,努力吧,把用户的各种问题解决好,希望10年后还能看到你活着。
TOP
5#

TOP
6#

写的好啊!!
TOP
7#

可视化确实好,但是八爪鱼打的广告让人恶心
TOP
8#

工具还好,遇到八爪鱼也算有缘,要是先用火车头得让我花多少时间学习。
TOP
9#

回复 1楼olozjolo的帖子

楼主你好!

我是八爪鱼创始人刘宝强,很高兴看到您对八爪鱼的认可,以及洋洋洒洒几千字的评论,希望有机会认识您。请私信。谢谢!
八爪鱼,让数据触手可及!八爪鱼采集器,最好用的网页数据采集工具!
TOP
10#

回复 9楼keven的帖子

请问图片转换工具为什么不好用了,能再传一下么,谢谢
TOP
发新话题 回复该主题