爬虫简介
什么是爬虫?
–爬虫就是通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。
爬虫是否违法?
–爬虫在法律上是不被禁止的,但是爬虫有违法的风险。爬虫是一种工具,是否违法取决于你怎么使用,就比如菜刀你如果只是用来切菜,那么它就不违法,但是如果你用菜刀杀人,那么它就是违法的。所以爬虫是否违法不在于它本身,而在于使用它的人。
爬虫分类:
-1.通用爬虫:抓取系统重要组成部分,抓取的是整张页面数据,例如百度、谷歌等搜索引擎。
-2.聚焦爬虫:是建立在通用爬虫的基础之上,抓取的是页面中特定的局部内容,例如获取豆瓣电影的名称和影评
-3.增量式爬虫:检测网站中数据更新情况,只会抓取网站汇总最新更新出来的数据。
爬虫的矛与盾:
-反爬机制:
-1.请求头之 User-agent
-请求头之Cookie
-请求头之Referer
-请求头之Accept
-请求头之Connection
-请求头之token
-异步加载
-JS加密cookie
反反爬策略:
-爬虫程序通过相应的策略和技术手段,破解门户网站的反爬机制,从而爬取到相应的数据。
-User-agent是用的最多的机制,最好是养成习惯在每次编写爬虫时都加入User-agent
robots.txt协议
-君子协议,防君子不防小人,门户网站在在文件中声明那些页面不能爬取。