什么是爬虫?

  –爬虫就是通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。

爬虫是否违法?

  –爬虫在法律上是不被禁止的,但是爬虫有违法的风险。爬虫是一种工具,是否违法取决于你怎么使用,就比如菜刀你如果只是用来切菜,那么它就不违法,但是如果你用菜刀杀人,那么它就是违法的。所以爬虫是否违法不在于它本身,而在于使用它的人。

爬虫分类:

  -1.通用爬虫:抓取系统重要组成部分,抓取的是整张页面数据,例如百度、谷歌等搜索引擎。

  -2.聚焦爬虫:是建立在通用爬虫的基础之上,抓取的是页面中特定的局部内容,例如获取豆瓣电影的名称和影评

  -3.增量式爬虫:检测网站中数据更新情况,只会抓取网站汇总最新更新出来的数据。

 

爬虫的矛与盾:

  -反爬机制:

    -1.请求头之 User-agent  

    -请求头之Cookie

    -请求头之Referer

    -请求头之Accept

    -请求头之Connection

    -请求头之token 

    -异步加载

    -JS加密cookie

反反爬策略:

  -爬虫程序通过相应的策略和技术手段,破解门户网站的反爬机制,从而爬取到相应的数据。

  -User-agent是用的最多的机制,最好是养成习惯在每次编写爬虫时都加入User-agent

robots.txt协议

  -君子协议,防君子不防小人,门户网站在在文件中声明那些页面不能爬取。

 

版权声明:本文为lyqLovellx原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/lyqLovellx/p/15179450.html