六大免费网站数据采集器对比(火车头,海纳,云采集,ET,三人行,狂人采集) - smith_feng

goodsmith 2021-11-12 原文


六大免费网站数据采集器对比(火车头,海纳,云采集,ET,三人行,狂人采集)


 

2013年02月27日 PHP开源系统 暂无评论 阅读 497 views 次

在目前的站长圈内,比较流行的采集工具有很多,但是总结起来,比较出名的免费的就这么几个:火车头,海纳,云采集,ET,三人行,狂人。
下面我们对这几款采集工具作一个简单的比较和评比。

1. 火车头
火车头应该是国内采集软件成功的典型之一,使用人数包括收费用户数量上应该是最多的。
特色:功能强大,速度快,支持的网站最丰富,支持丰富扩展。
优点:功能齐全,采集速度比较快,主要针对CMS,短时间可以采集很多,过滤,替换都不错,比较详细;很多人写接口、规则和发布模块,接口比较齐全;支持的扩展非常好用,如果你是一位懂技术的站长,可以使用PHP或C#开发任意功能的扩展;附件采集功能完善。
缺点:采集规则编写对很多站长是个不小的门槛。功能增多,软件越来越大,比较占用内存和CPU资源,资源回收控制得不好。另外,授权绑定计算机,有时很不方便。只能在Windows平台下使用,没有Linux版本。
技术:技术主要是论坛支持,帮助文件多。有收费、免费版本。
网址:火车头官网

2. 海纳
特色:关键词抓取,可以预览采集内容,不用写规则。
优点:可以抓取网站很多一个关键词文章,似乎适合做网站的专题,特别是文章类、博客类。
缺点:分类不方便,即采集文章归类不方便,要手动(自动容易混淆),特定接口,采集的内容有限,一次只能采集一条,无法批量采集,需要和网站后台网页对接。安装时,需要海纳的人员上门技术支持,比较麻烦。
技术:无论坛。收费,免费的功能限制太大,形同鸡肋。
网址:海纳官网

3. 云采集
特色:完美无缝的集合了火车头和海纳的优点,功能强大,速度快,关键词抓取,不用写规则。提供基于网络的接口供第三方调用,创新给力。
优点:功能强大,不需要写任何规则,软件使用简单,多线程,速度快,可以多个关键词采集,可以批量采集批量入库,傻瓜式采集,可以定时采集和发布,无人值守,适合做网站专题。能够和任意CMS,如PHP、ASP.NET(C#)、JSP、Ruby等开发的CMS紧密整合。和网站后台频道无缝对接,方便文章发布。安装简单,支持Windows和Linux。
缺点:虽然也较为有名,但与火车头和海纳相比,发展时间相对较短,相对新锐,偶尔采集的内容不太准确,不过很容易校正调整。
技术:QQ技术支持、论坛、微博。有永久免费版本、收费版本。收费版本也可以通过嵌入代码资源交换方式免费使用,很灵活。
网址:云采集官网

4. ET工具
特色:无人值守,稳定,资源占用最低,基本上可以叫安静。
优点:无人值守,自动更新,用户群主要集中在长期做站潜水站长。软件清晰,必备功能也很齐全,软件免费,听说已经增加采集中英文翻译功能。
缺点:对论坛和CMS的支持一般。
技术:论坛支持,软件本身免费,但是也提供收费服务。帮助文件较少,上手不容易。
网址:ET官网

5. 三人行
主要针对论坛的采集,功能比较完善。先申明,不知道三人行和狂人是什么关系,但界面和功能都是一个模子出来的。
特色:针对各大论坛,搬家,移动,速度快,准确度高。
优点:还是针对论坛,适合开论坛的。
技术:收费技术,免费有广告。
缺点:超级复杂,上手难,对CMS支持比较差。
网址:三人行官网

6. 狂人
特色:可以让你的新论坛一开始就会有大量的会员。
优点:非常适合采集discuz论坛。
缺点:过于专一,兼容性不好。
网址:狂人官网

总结:追求简单易用,功能较为齐全的,可以选择云采集。追求功能非常齐全的,可以选择火车头。云采集和火车头都能迅速采集很多的资源,充实网站内容。如果做论坛,那选择三人行,可以实现采集论坛,回复,搬家等多项论坛功能。长期做站,可以选择ET或云采集,花点时间,弄懂,是个长期受益的事情,他们都可以像开QQ一样,长期运行,不费内存,自动采集更新。至于海纳,似乎不写规则,上手容易,但是对文章的发布上,比较麻烦。另外,这里只讲了六大主要的采集工具,其实还有网络矿工、网络神采、易采、gooseeker、soukey、小猪采集器、超级采集、千帆采集等等,这些采集器也是各有优缺点,但总体上来说属于采集工具领域的第二梯队,就不一一再讲了。。。。。。

发表于
2016-08-08 16:08 
smith_feng 
阅读(1004
评论(0
编辑 
收藏 
举报

 

版权声明:本文为goodsmith原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/goodsmith/p/5749746.html

六大免费网站数据采集器对比(火车头,海纳,云采集,ET,三人行,狂人采集) - smith_feng的更多相关文章

  1. 《网页文档/文字复制方法大全》 – imsoft.cnblogs – imsoft

    《网页文档/文字复制方法大全》 – imsoft.cnblogs 《网页文档/文字复制方法大全》 […]...

  2. golang学习入坑(一)Go介绍及环境搭建 – 朽木大叔

    golang学习入坑(一)Go介绍及环境搭建 什么是GO?   Go 是一个开源的编程语言,它能让构造简单、可 […]...

  3. 正则化 – Aaron12

    正则化 一、正则化基础 正则化等价于结构风险最小化,就是在经验风险后面加上了表示模型复杂度的正则化项或惩罚项。 […]...

  4. 从零到一快速搭建个人博客网站(域名备案 + https免费证书)(一)

    前言        为什么选择搭建个人博客?一方面是各个平台经常下架原创文章,另一个方面是为了熟悉整个建站流程 […]...

  5. 计算生存曲线四分位数以及中位数的置信区间 – 会开花的小花花

    计算生存曲线四分位数以及中位数的置信区间 计算生存曲线四分位数以及中位数的置信区间 计算生存曲线四分位数以及中 […]...

  6. 北京市社会保险网上服务平台 – FryFish

    北京市社会保险网上服务平台 Posted on 2012-02-06 13:50  FryFish  阅读(2 […]...

  7. 1500多套微信小程序带后端源码-史上最全的不同行业的源码集合 – Java5206868

    1500多套微信小程序带后端源码-史上最全的不同行业的源码集合 微信小程序源码与模板 如何下载获取在最后面! […]...

  8. 详解协方差与协方差矩阵 – moffis

    详解协方差与协方差矩阵 转自http://blog.csdn.net/ybdesire/article/det […]...

随机推荐

  1. 爬虫学习:request+xpath爬取笔趣阁小说

    爬虫入坑一段时间了,准备搞点事,嘿嘿 注意:阅读本文要有一定的python基础,了解Requests和Xpat […]...

  2. 【Python】动手分析天猫内衣售卖数据,得到你想知道的信息

      大家好,我是一个严谨的老实人,现在我决定手把手教你怎么用 Python 抓取天猫内衣销售数据,并分析得到中 […]...

  3. C语言中的整数(short,int,long)

    整数是编程中常用的一种数据,C语言通常使用int来定义整数(int 是 integer 的简写)。 在现代操作 […]...

  4. Spring Cloud Alibaba基础教程:Nacos服务发现与配置管理

    随着微服务概念的流行,越来越多的公司采用`Spring Cloud`全家桶构建微服务系统,实现业务的快速迭代。 […]...

  5. 文件夹操作之判断是否存在(Directory)

    Directory类用于操作文件夹,用于创建、移动和枚举目录和子目录的静态方法。DirectoryInfo类用 […]...

  6. 重学Docker

    转了云方向,代码都少写了 1. 为什么出现Docker 以前开发项目有开发的环境、测试的环境、还有生产的环境, […]...

  7. ubuntu设置root密码

    sudo passwd 设置root密码 回车,回车,回车就完成了,然后 su root  切换root用户...

  8. HTML标签小记

    标签 <h1>—<h6>:标题标签,从1最大到6最小    <p&g […]...

展开目录

目录导航