关于爬虫的一些思考
兴致勃勃的想学习爬虫,学了三四天后似乎感觉有点奇怪,出发点错了,爬虫并不是一种方向而是一种工具,而真正的方向是比如数据分析(数据挖掘),first step 就是要有数据(但是其实现在网上都有各种数据给你练手了),自己爬数据显然是很少的,爬数据不是重点而是如何利用数据,而且学习爬虫时发现里面有着许多其他方向的知识,(比如如果你对前端有很好的认识的话学习是很轻松的),因为爬网站后就是去阅读网页代码,必要时还要自己写一些js,抛去这些东西后,爬虫似乎就剩下如何使用各种库了,但是很明显库的使用不是一朝一夕的,而是需要什么去看什么文档,看API,看参数,调试出来的,其实也就是程序员很重要的一项能力就是阅读文档的能力。
记录下这几天学习时保存的一些日后可能有用的文档:
1.http://tool.oschina.net/regex/(这是一个在线测试正则表达式的网站,一些常用的正则写法里面也都有)
2.http://www.goubanjia.com/(这是一个爬虫时设置国外代理IP的网站,更新很快)
3.https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/(Beautifulsoupd的中文文档,内容不少,都是例子)
4.pyquery跟楼上的bs究竟使用谁呢?见仁见智,但是个人认为,学爬虫不能没有前端知识,而且前端熟练十分有好处,(此处很明显要说jquery),所以,从jquery来pyquery简直无缝连接。
废话了一堆,无疑是想转变一下学习方向:
1.数据分析(数据挖掘)
2.web前端
3.机器学习
3.重学c++(linux下),通过c++巩固一些基础(数据结构与算法,操作系统,设计模式等等)