爬虫简介

lyqLovellx 2021-11-07 原文

什么是爬虫？

　　–爬虫就是通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。

爬虫是否违法？

　　–爬虫在法律上是不被禁止的，但是爬虫有违法的风险。爬虫是一种工具，是否违法取决于你怎么使用，就比如菜刀你如果只是用来切菜，那么它就不违法，但是如果你用菜刀杀人，那么它就是违法的。所以爬虫是否违法不在于它本身，而在于使用它的人。

爬虫分类：

　　-1.通用爬虫：抓取系统重要组成部分，抓取的是整张页面数据，例如百度、谷歌等搜索引擎。

　　-2.聚焦爬虫：是建立在通用爬虫的基础之上，抓取的是页面中特定的局部内容，例如获取豆瓣电影的名称和影评

　　-3.增量式爬虫：检测网站中数据更新情况，只会抓取网站汇总最新更新出来的数据。

爬虫的矛与盾：

　　-反爬机制：

　　　　-1.请求头之 User-agent　　

　　　　-请求头之Cookie

　　　　-请求头之Referer

　　　　-请求头之Accept

　　　　-请求头之Connection

　　　　-请求头之token　

　　　　-异步加载

　　　　-JS加密cookie

反反爬策略：

　　-爬虫程序通过相应的策略和技术手段，破解门户网站的反爬机制，从而爬取到相应的数据。

　　-User-agent是用的最多的机制，最好是养成习惯在每次编写爬虫时都加入User-agent

robots.txt协议

　　-君子协议，防君子不防小人，门户网站在在文件中声明那些页面不能爬取。

本文链接：https://www.cnblogs.com/lyqLovellx/p/15179450.html

爬虫简介的更多相关文章

1 爬虫简介

什么是爬虫爬虫是一种应用程序，用于从互联网中获取有价值的数据，从本质上来看，属于client客户端程序。 […]...

爬虫简介

python网络爬虫的简单介绍基础储备 # 友情提示： # 了解下 http和https的概念 # […]...

随机推荐

单片机/嵌入式系统程序架构总结

在工作中经过摸索实验，总结出单片机大致应用程序的架构有三种： 1. 简单的前后台顺序执行程序，这类写法是大多数 […]...

怎么用dos命令进入指定的文件夹

在正常开发中经常需要我们进入指定的文件夹下面的例子演示了进入这个文件夹D:\portal\liferay-po […]...

使用 C# (.NET Core) 实现命令设计模式 (Command Pattern)

本文的概念内容来自深入浅出设计模式一书. 项目需求有这样一个可编程的新型遥控器, 它有7个可编程插槽, 每个 […]...

清明花了几天总结了多线程的知识点

前言只有光头才能变强。文本已收录至我的GitHub精选文章，欢迎Star：https://github.c […]...

Python的网页解析库-PyQuery

PyQuery库也是一个非常强大又灵活的网页解析库，如果你有前端开发经验的，都应该接触过jQuery,那么Py […]...

区块链初试

区块链初试： 1、本项目通过Java从零开始编写一个区块链，并基于区块链实现一个类似比特币的加密货 […]...

ElasticSearch创建文档

1. 新建文档支持自动生成文档 ID 和指定文档 ID 两种方式通过调用 “post/users/_doc […]...

Chrome – RockyLOMO

Chrome chrome： chrome://net-internals/ https://chrome.g […]...

爬虫简介

爬虫简介的更多相关文章

随机推荐

热门专题

目录导航