关于爬虫的一些思考

CszShuzi 2018-08-30 原文

关于爬虫的一些思考

Posted on 2018-08-30 17:15 彩笔梳子阅读(…) 评论(…) 编辑收藏

兴致勃勃的想学习爬虫，学了三四天后似乎感觉有点奇怪，出发点错了，爬虫并不是一种方向而是一种工具，而真正的方向是比如数据分析（数据挖掘），first step 就是要有数据（但是其实现在网上都有各种数据给你练手了），自己爬数据显然是很少的，爬数据不是重点而是如何利用数据，而且学习爬虫时发现里面有着许多其他方向的知识，（比如如果你对前端有很好的认识的话学习是很轻松的），因为爬网站后就是去阅读网页代码，必要时还要自己写一些js，抛去这些东西后，爬虫似乎就剩下如何使用各种库了，但是很明显库的使用不是一朝一夕的，而是需要什么去看什么文档，看API,看参数，调试出来的，其实也就是程序员很重要的一项能力就是阅读文档的能力。

记录下这几天学习时保存的一些日后可能有用的文档：

1.http://tool.oschina.net/regex/（这是一个在线测试正则表达式的网站，一些常用的正则写法里面也都有）

2.http://www.goubanjia.com/（这是一个爬虫时设置国外代理IP的网站，更新很快）

3.https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/（Beautifulsoupd的中文文档，内容不少，都是例子）

4.pyquery跟楼上的bs究竟使用谁呢？见仁见智，但是个人认为，学爬虫不能没有前端知识，而且前端熟练十分有好处，（此处很明显要说jquery），所以，从jquery来pyquery简直无缝连接。

废话了一堆，无疑是想转变一下学习方向：

1.数据分析（数据挖掘）

2.web前端

3.机器学习

3.重学c++(linux下)，通过c++巩固一些基础（数据结构与算法，操作系统，设计模式等等）