爬虫原理

sunlizhao 2018-03-29 原文

世界上80%的爬虫是基于python开发的,学好爬虫技能,对后续的大数据分析,挖掘,机器学习提供重要的数据源

网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本

爬虫的本质是什么

　　模拟浏览器打开网页,获取网页中我们想要的那部分数据

浏览器发送消息给网址所在的服务器,这个过程叫做http Request(请求)

服务器收到浏览器发送的消息后,根据发送的内容,作出相应的处理,然后把消息传给浏览器,这个过程叫做http Response(响应)

爬虫的基本流程

发起请求

通过http库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应

获取响应内容

如果服务器能正常相应,会得到一个Response,其中的内容便是所要获取的页面内容,类型可能是html,json字符串,二进制数据(图片或者视频)等类型

解析内容

　得到的内容可能是html,可以用正则,页面解析库进行解析

　　可能是json,可以直接转换为json对象解析

　　可能是二进制数据,可以做保存或者进一步处理

保存数据

保存形式多种多样,可以存为文本,可以保存为数据库,或者特定格式的文件

request包含

请求方式

主要有:get和post两种常用类型,两者的区别是get请求的数据放在url中,post则是放在头部

get:向指定的资源发出”显示请求”.使用get方法操作应该只用在读取数据,

post:向指定资源提交数据,请求服务器进行处理(例如提交表单或者上传文件).数据被包含在请求文本中,这个请求可能会创建新的资源,或者修改现有资源,抑或两者皆有

请求URL

URL,即统一资源定位符,也就是我们所说三个部分组成的网址.互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该曾样处理他

URL的格式由三个部分组成

　　第一部分是协议(服务方式)

　　第二部分是存储该资源的主机IP地址(也包括端口号)

　　第三部分是主机资源的具体地址,比如目录和文件名

爬虫爬取数据时必须有一个目标的URl才可以获取数据,

请求头

　包含请求时的头部信息,比如User-Agent,Host,Cookies等信息

请求体

　请求时携带的数据,比如提交表单时的表单数据(post)

Response包含

　　所有http响应的第一行都是状态行,依次是http版本号,三位数字组成的状态代码,以及描述状态的词语,彼此由空格分隔

响应状态

　　有多种:比如 200代表成功,301跳转,404找不到页面,502服务器错误

响应头

　　比如内容类型,类型长度,服务器信息,设置Cookie

响应体

　　最主要的部分,包含请求资源的内容,比如html,二进制数据等

能够爬取什么样的数据

网页文本:html文档,json格式化文本

图片:获取到二进制文件,保存为图片格式

视频:二进制文件

其他:只要是能够请求到的,都可以获取

如何解析数据

1.直接处理

2.json解析

3.正则表达式处理

4.BeadutifulSoup解析处理

5.PyQuery解析处理

6.Xpath解析处理

本文链接：https://www.cnblogs.com/sunlizhao/p/8670458.html

爬虫原理的更多相关文章

Python爬虫入门教程 15-100 石家庄政民互动数据爬取

写在前面今天，咱抓取一个网站，这个网站呢，涉及的内容就是网友留言和回复，特别简单，但是网站是gov的。网址 […]...

Python爬虫入门教程 26-100 知乎文章图片爬取器之二

1. 知乎文章图片爬取器之二博客背景昨天写了知乎文章图片爬取器的一部分代码，针对知乎问题的答案json进行了 […]...

Python登录豆瓣并爬取影评

上一篇我们讲过Cookie相关的知识，了解到Cookie是为了交互式web而诞生的，它主要用于以下三个方面： […]...

一起学爬虫——使用Beautiful Soup爬取网页

要想学好爬虫，必须把基础打扎实，之前发布了两篇文章，分别是使用XPATH和requests爬取网页，今天的文章 […]...

Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取

写在前面很高兴我这系列的文章写道第18篇了，今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://janda […]...

requests库基础使用方法(爬虫模拟登陆的三种方式) =￣ω￣= Python爬虫 – O寻_觅O

requests库基础使用方法(爬虫模拟登陆的三种方式) =￣ω￣= Python爬虫文章目录 reques […]...

Python爬虫之PyQuery使用

Python爬虫之PyQuery使用 PyQuery简介 pyquery能够通过选择器精确定位 DOM 树 […]...

requests库基础使用方法(爬虫模拟登陆的三种方式) =￣ω￣= Python爬虫 – O寻_觅O

requests库基础使用方法(爬虫模拟登陆的三种方式) =￣ω￣= Python爬虫文章目录 reques […]...

随机推荐

虚拟机VMware15安装Ubuntu20.04

本文内容皆为作者原创，如需转载，请注明出处：https://www.cnblogs.com/xuexianqi […]...

还原误删数据笔记

要你没有向删除文件的分区写入文件，就还有机会将删除的文件恢复。如数据已被覆盖，可到专业的数据恢复公司求助，他们 […]...

k8s资源管理(基础操作)

1. 基础本文实操基于k8s 1.22.1 # 可以查看资源分配情况 kubectl describe no […]...

servlet和jsp页面过滤器Filter的作用及配置

刚刚有个朋友问我，Servlet的过滤器有什么作用？现在发个帖子说明一下，过滤器是一 […]...

oracle数据库导入导出方法

Oracle Database 10g以后引入了最新的数据泵(Data Dump)技术，使DBA或开发人员可以 […]...

【.NET 深呼吸】.net core 中的轻量级 Composition

记得前面老周写过在.net core 中使用 Composition 的烂文。上回老周给大伙伴们介绍的是一个“ […]...

8款适合Linux用户使用的数据库管理工具

　　从内容管理系统到简单的表格，数据库是每一个开发项目的一部分。这就是为什么开发者们如此强调使用正确类型的数据 […]...

ISIS 基本配置实验1

Lab (1)使用ISIS构建纯CLNS网络（说明Net地址最多可以配置三个，并且system-ID必须相同） […]...

爬虫原理

爬虫原理的更多相关文章

随机推荐

热门专题

目录导航