关于爬虫的一些思考

Posted on 2018-08-30 17:15 彩笔梳子 阅读() 评论() 编辑 收藏

兴致勃勃的想学习爬虫,学了三四天后似乎感觉有点奇怪,出发点错了,爬虫并不是一种方向而是一种工具,而真正的方向是比如数据分析(数据挖掘),first step 就是要有数据(但是其实现在网上都有各种数据给你练手了),自己爬数据显然是很少的,爬数据不是重点而是如何利用数据,而且学习爬虫时发现里面有着许多其他方向的知识,(比如如果你对前端有很好的认识的话学习是很轻松的),因为爬网站后就是去阅读网页代码,必要时还要自己写一些js,抛去这些东西后,爬虫似乎就剩下如何使用各种库了,但是很明显库的使用不是一朝一夕的,而是需要什么去看什么文档,看API,看参数,调试出来的,其实也就是程序员很重要的一项能力就是阅读文档的能力。

记录下这几天学习时保存的一些日后可能有用的文档:

1.http://tool.oschina.net/regex/(这是一个在线测试正则表达式的网站,一些常用的正则写法里面也都有)

2.http://www.goubanjia.com/(这是一个爬虫时设置国外代理IP的网站,更新很快)

3.https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/(Beautifulsoupd的中文文档,内容不少,都是例子)

4.pyquery跟楼上的bs究竟使用谁呢?见仁见智,但是个人认为,学爬虫不能没有前端知识,而且前端熟练十分有好处,(此处很明显要说jquery),所以,从jquery来pyquery简直无缝连接。

 

废话了一堆,无疑是想转变一下学习方向:

1.数据分析(数据挖掘)

2.web前端

3.机器学习

3.重学c++(linux下),通过c++巩固一些基础(数据结构与算法,操作系统,设计模式等等)

版权声明:本文为CszShuzi原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/CszShuzi/p/9561408.html