六大免费网站数据采集器对比(火车头,海纳,云采集,ET,三人行,狂人采集) - smith_feng

goodsmith 2021-11-12 原文


六大免费网站数据采集器对比(火车头,海纳,云采集,ET,三人行,狂人采集)


 

2013年02月27日 PHP开源系统 暂无评论 阅读 497 views 次

在目前的站长圈内,比较流行的采集工具有很多,但是总结起来,比较出名的免费的就这么几个:火车头,海纳,云采集,ET,三人行,狂人。
下面我们对这几款采集工具作一个简单的比较和评比。

1. 火车头
火车头应该是国内采集软件成功的典型之一,使用人数包括收费用户数量上应该是最多的。
特色:功能强大,速度快,支持的网站最丰富,支持丰富扩展。
优点:功能齐全,采集速度比较快,主要针对CMS,短时间可以采集很多,过滤,替换都不错,比较详细;很多人写接口、规则和发布模块,接口比较齐全;支持的扩展非常好用,如果你是一位懂技术的站长,可以使用PHP或C#开发任意功能的扩展;附件采集功能完善。
缺点:采集规则编写对很多站长是个不小的门槛。功能增多,软件越来越大,比较占用内存和CPU资源,资源回收控制得不好。另外,授权绑定计算机,有时很不方便。只能在Windows平台下使用,没有Linux版本。
技术:技术主要是论坛支持,帮助文件多。有收费、免费版本。
网址:火车头官网

2. 海纳
特色:关键词抓取,可以预览采集内容,不用写规则。
优点:可以抓取网站很多一个关键词文章,似乎适合做网站的专题,特别是文章类、博客类。
缺点:分类不方便,即采集文章归类不方便,要手动(自动容易混淆),特定接口,采集的内容有限,一次只能采集一条,无法批量采集,需要和网站后台网页对接。安装时,需要海纳的人员上门技术支持,比较麻烦。
技术:无论坛。收费,免费的功能限制太大,形同鸡肋。
网址:海纳官网

3. 云采集
特色:完美无缝的集合了火车头和海纳的优点,功能强大,速度快,关键词抓取,不用写规则。提供基于网络的接口供第三方调用,创新给力。
优点:功能强大,不需要写任何规则,软件使用简单,多线程,速度快,可以多个关键词采集,可以批量采集批量入库,傻瓜式采集,可以定时采集和发布,无人值守,适合做网站专题。能够和任意CMS,如PHP、ASP.NET(C#)、JSP、Ruby等开发的CMS紧密整合。和网站后台频道无缝对接,方便文章发布。安装简单,支持Windows和Linux。
缺点:虽然也较为有名,但与火车头和海纳相比,发展时间相对较短,相对新锐,偶尔采集的内容不太准确,不过很容易校正调整。
技术:QQ技术支持、论坛、微博。有永久免费版本、收费版本。收费版本也可以通过嵌入代码资源交换方式免费使用,很灵活。
网址:云采集官网

4. ET工具
特色:无人值守,稳定,资源占用最低,基本上可以叫安静。
优点:无人值守,自动更新,用户群主要集中在长期做站潜水站长。软件清晰,必备功能也很齐全,软件免费,听说已经增加采集中英文翻译功能。
缺点:对论坛和CMS的支持一般。
技术:论坛支持,软件本身免费,但是也提供收费服务。帮助文件较少,上手不容易。
网址:ET官网

5. 三人行
主要针对论坛的采集,功能比较完善。先申明,不知道三人行和狂人是什么关系,但界面和功能都是一个模子出来的。
特色:针对各大论坛,搬家,移动,速度快,准确度高。
优点:还是针对论坛,适合开论坛的。
技术:收费技术,免费有广告。
缺点:超级复杂,上手难,对CMS支持比较差。
网址:三人行官网

6. 狂人
特色:可以让你的新论坛一开始就会有大量的会员。
优点:非常适合采集discuz论坛。
缺点:过于专一,兼容性不好。
网址:狂人官网

总结:追求简单易用,功能较为齐全的,可以选择云采集。追求功能非常齐全的,可以选择火车头。云采集和火车头都能迅速采集很多的资源,充实网站内容。如果做论坛,那选择三人行,可以实现采集论坛,回复,搬家等多项论坛功能。长期做站,可以选择ET或云采集,花点时间,弄懂,是个长期受益的事情,他们都可以像开QQ一样,长期运行,不费内存,自动采集更新。至于海纳,似乎不写规则,上手容易,但是对文章的发布上,比较麻烦。另外,这里只讲了六大主要的采集工具,其实还有网络矿工、网络神采、易采、gooseeker、soukey、小猪采集器、超级采集、千帆采集等等,这些采集器也是各有优缺点,但总体上来说属于采集工具领域的第二梯队,就不一一再讲了。。。。。。

发表于
2016-08-08 16:08 
smith_feng 
阅读(1004
评论(0
编辑 
收藏 
举报

 

版权声明:本文为goodsmith原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/goodsmith/p/5749746.html

六大免费网站数据采集器对比(火车头,海纳,云采集,ET,三人行,狂人采集) - smith_feng的更多相关文章

  1. 测试工程师进阶面试题目大合集 – 腾讯优测

    测试工程师进阶面试题目大合集 很多软件测试工程师在面试的时候都会遇到考官给的各种各样的面试题,这也反应了测试工 […]...

  2. 用深度学习(DNN)构建推荐系统 – Deep Neural Networks for YouTube Recommendations论文精读

    虽然国内必须FQ才能登录YouTube,但想必大家都知道这个网站。基本上算是世界范围内视频领域的最大的网站了, […]...

  3. EXCEL常用快捷键大全 – 小猪课堂

    https://wenku.baidu.com/view/e5343d8531b765ce04081427.h […]...

  4. 斐波那契数列的递归,迭代(循环),通项公式三种实现 – AllenZhao

    斐波那契数列的递归,迭代(循环),通项公式三种实现 Fibonacci数列是指这样一种数列,它的前两项均为1, […]...

  5. 图书管理系统用例图 – 全世界每一处都是你

    图书管理系统用例图 读者用例图 图书管理员用例图...

  6. oracle_修改连接数 修改Oracle最大连接数1、查询Oracle会话的方法   select * from v$session

    2、修改Oracle最大连接数的方法      a、以sysdba身份登陆PL/SQL 或者 Workshee […]...

  7. Linux 三剑客之 awk 实战详解教程

    我们知道 Linux 三剑客,它们分别是:grep、sed、awk。在前边已经讲过 grep 和 sed,没看 […]...

  8. 【重温设计模式】创建型-单例模式,工厂模式,建造者模式,原型模式 – 无信不立

    View Post 【重温设计模式】创建型-单例模式,工厂模式,建造者模式,原型模式 一、创建型设计模式 单例 […]...

随机推荐

  1. 【计算机组成原理】中央处理器-硬布线控制器 流水线

    一、硬布线控制器基本思想 把控制不仅看作为产生专门固定时序控制信号的逻辑电路。而此逻辑电路以使用最少元件和取得 […]...

  2. sleep、yield、join方法简介与用法 sleep与wait区别 多线程中篇(十四)

    Object中的wait、notify、notifyAll,可以用于线程间的通信,核心原理为借助于监视器的入口 […]...

  3. 2000_wideband extension of telephone speech using a hidden Markov model

    论文地址:基于隐马尔科夫模型的电话语音频带扩展 博客作者:凌逆战 博客地址:https://www.cnblo […]...

  4. 数学建模(老师的建议)

    第一天 matlab基础操作 第二天 借matlab电子教材,教材用什么都行。 只需要了解就可以了,多看优秀论 […]...

  5. Python中的urlparse、urllib抓取和解析网页(一)

      对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的 […]...

  6. http://go.microsoft.com/fwlink/?linkid问题 – 紫色情怀

    http://go.microsoft.com/fwlink/?linkid问题 今天不知怎的,打开一个网页出 […]...

  7. UWP 使用OneDrive云存储2.x api(一)【全网首发】

    最近开发人脸识别UWP【微识别 / Werecognition】用到了OneDrive开发,下面把来龙去脉讲一 […]...

  8. 怎么把PDF拆分开成一张一张的

    有时候我们为了方便会将一对资料全部一起扫描成PDF,但这样的PDF文档就是合成的一个文件,如果需要单独每一个都 […]...

展开目录

目录导航