手把手视频:万能开源Hawk抓取动态网站
Hawk是沙漠之鹰历时五年开发的开源免费网页抓取工具(爬虫),无需编程,全部可视化。
自从上次发布Hawk 2.0过了小半年,可是还是有不少朋友通过邮件或者微信的方式询问如何使用。看文档还是不如视频教学方便,沙漠君决定录播几段视频来帮助大家~
软件最新的下载地址(或点击原文)
下面是视频内容,在腾讯视频可以开启高清,实测清晰度尚可,当然你也可以在百度云盘中下载以下全部视频。
http://pan.baidu.com/s/1dE5D40h
1. 使用Hawk抓取百度百家新闻
这是抓取百度百家新闻(http://baijia.baidu.com/
)完整的例子,你可以了解到:
- 如何抓取动态页面和超级模式
- 如何获取网页正文信息
- 如何导出抓取的数据
内置的播放器无法调节清晰度。可在PC访问:
2. Hawk答疑
这是一个综述,对大家感兴趣的话题答疑解惑,包括:
- 如何使用手气不错(相比1.0版本优化很多)
- 文档在哪里?
- 如何连接数据库
- 其他一些使用上的问题
可在PC访问:
3. 历史视频
这些视频都是针对1.0在2016年上半年录制的,由于网站改版,或增加了防爬虫(如链家),因此在使用上会有较大区别,仅供各位用户参考。
- 抓取链家(目前链家防爬虫非常严格,视频仅供参考)
- 大众点评(没想到播放量高达8.3W)
- 获取最近地铁站(Hawk的功能可不局限于爬虫)
4. 如何下载工程案例
Hawk本身提供了一系列例子(虽然基本都是2016年上半年的),不少已经过期了。
有些朋友直接用“右键另存为”下载,这样保存的是html页面,有两种方法可以下载:
- 如果你会用git, 在shell里直接执行
git clone git@github.com:ferventdesert/Hawk-Projects.git
- 手动下载整个文件夹: 在首页上Download ZIP
4. 欢迎共同改进Hawk
为什么要重提再度改进Hawk呢?
- 高不成低不就: 因为如果一件好用的工具分数是0.8的话,Hawk正好在0.74,因为一些其实很简单的问题,用户就卡在那里无从下手。
- 可用性/UI设计急需提高: 特别需要懂产品/UI的朋友一起协助
- 软件依然有不少bugs
- etlpy(Python版本的Hawk)开发虽完成,但有相当陡峭的学习曲线
万里长征走了9500里,却在最后的一段路上止步不前,给世人留下一个半吊子,终究是不好的。所以2017年一个重要的任务便是进一步完善它,走完剩下的500里。
因此,如果你对Hawk,爬虫或是软件设计感兴趣的话,可以考虑和沙漠君一起改进它。只要你有任何靠谱的建议,都可以告诉我,我会集中起来一起改进。也许你可能获得不了什么经济上的补偿(沙漠君也没有),但总比网络上各种野路子收费软件强很多。我们做了一件能帮助几十万甚至百万人的事情。
虽然工作非常忙,因此各种回复不及时,不过有任何问题依然可以给我发邮件:
buptzym@qq.com
最后祝使用Hawk愉快!