urllib库的使用
1.urllib库介绍: (Python3)
# urllib是python内置的HTTP请求库, 不需要额外安装即可使用, 它包含四个模块, 分别如下: (1).request: request是最基本的HTTP请求模块, 可以用来模拟发送请求. 就像在浏览器中输入网址后按下回车是一样一样滴, 只需要个库方法传入URL以及额外的参数, 就可以模拟实现这个过程了. (2).error: 异常处理模块, 如果出现请求错误, 我们可以捕捉这些异常, 然后进行重试或其他操作以保证程序不会意外终止. (3).parse: 一个工具模块, 提供了许多URL处理方法, 比如拆分, 解析, 合并等. (4).robotparse: 主要是用来识别网站的robots.txt文件, 然后判断哪些网站可以爬, 哪些网站不能爬, 其实这并不重要, 因为robots.txt只针对通用爬虫, 我们爬取数据一般会忽略该协议.
2.urllib发送请求与响应
urlopen是urllib.request提供的向服务器发送请求的的方法,同时它还带有处理授权验证(authenticaton)、重定向(redirection)、浏览器Cookies以及其他内容. 其语法与具体示例如下:
urllib.request.urlopen(url, data=None, [timeout,]*, cafile=None, cadefault=False, context=None)
1)使用urlopen发送get请求
# 导入urllib库下的request模块 import urllib.request # 使用urlopen向百度网页发送请求, response可以调用read方法, 读取内部的内容 response = urllib.request.urlopen('https://www.baidu.com') # read方法获取的是二进制数据, 用utf-8进行解码就可以正常显示了 print(response.read().decode('utf-8'))
2)使用urlopen发送post请求
# 在利用urlopen发送post请求前需要预先定义data数据作为方法的参数传递 import urllib.parse # parse定义data import urllib.request # urlencode可以吧字典转化为字符串 # 传入urlopen中的data需要是字节流, 需要使用bytes进行转换, 编码格式为utf-8 data = bytes(urllib.parse.urlencode({'word':'hello'}), encoding='utf8') response = urllib.request.urlopen('http://httpbin.org/post', data=data) # 将data传入方法中 print(response.read())# 输出响应结果
3)自定制Request对象
# 为什么要定制Request对象 上面的demo中我们通过URLopen发送了简单的请求,但传递的几个简单参数还不能构建一个完整的请求,由于一些服务器要求请求中需要携带headers中的一部分内容才能请求成功,没有这些表要的请求头很有可能会被识别为非法请求.所有需要定制Request对象. # 定制Request对象与发送请求的步骤 -从urllib中导入request -实例化一个Request对象,给该对象传入需要的参数 -利用urlopen方法将上面实例化定制后的request对象作为参数传入,向服务器发送请求 # Request类参数: Request(url, data=None, headers={},origin_req_host=None,unverifiable=False, method=None) - url:要请求的url - data:发送post请求要向服务器提交的数据,可以使用urllib.parse.urlencode()编码,再bytes转为字节流类型 - headers是请求头信息,是一个字典,可以直接构造完成,也可以使用add_header方法动态添加 - origin_req_host:指的是请求方的host名称或者IP地址. - unverifiable:表示这个请求是否是无法验证的,默认是False,意思就是说用户没有足够权限来选择接收这个请求的结果。例如,我们请求一个HTML文档中的图片,但是我们没有自动抓取图像的权限,这时unverifiable的值就是True` - method:是一个字符串,用来指示请求使用的方法,比如GET、POST和PUT等。
# 导入request模块用于发送请求, parse模块用于处理data数据 from urllib import request, parse # 定义要访问的url url ='http://httpbin.org/post' # 定义响应头, 其中User-Agent表示了客户单的信息 headers ={ 'User-Agent':'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)', 'Host':'httpbin.org' } # 构建需要提交到服务器的数据 dict ={ 'name':'Germey' } # 处理data数据, 先将dic用parse.urlencode()转化为字符串 # 将字符串形式的dic通过bytes转化为字节流 data = bytes(parse.urlencode(dict), encoding='utf8') # 实例化request对象, 传入url, data及headers参数, 由于提交数据data, 所以method为post请求 req = request.Request(url=url, data=data, headers=headers, method='POST') # 使用urlopen向服务器发送请求, 获取响应赋值给response response = request.urlopen(req) # 输出响应结果 print(response.read().decode('utf-8'))
4)响应对象
1.响应对象response的类型是<class'http.client.HTTPResponse'>,就是一个HTTPResponse类型的对象 2.响应对象常用方法: read():返回网页内容 getheader(name):获取指定的响应头信息 getheader():获取所有响应头信息 3.响应对象包含的属性如下: status:返回结果的状态码 reason:返回响应的异常信息
3.Handler(处理器)
Handler介绍:
通过上面的对request的封装后,已经构造了相对完善的request了,但还不够完善.一些网站的访问需要用户携带cookie,一些网站对ip的访问频率会有限制,当我们的请求量较大时,很有可能就被封ip了.所以我们还有对request进行进一步的处理.
Handler是一个强大的工具,可以理解为各种处理器,Handler有处理Cookies的,有处理ip代理的,还可处理登陆验证.
应用Handler不需知道一个BaseHandler类,它是所有其他Handler的父类,其内部封装了最基本的方法共子类调用.
现在要使用高级用法,就要引入opener. opener提供了open方法来请求服务器获取数据.
# opener的具体构建步骤如下: 0.构建一个对象,这个对象是构建处理器是需要传入的参数,不同的处理器有所不同,不如代理处理器的构建就不需要这一步. 1.实例化一个处理器,如Cookies处理器,代理处理器,验证处理器 2.利用build_opener方法构建opener
1)验证
from urllib.request importHTTPPasswordMgrWithDefaultRealm,HTTPBasicAuthHandler, build_opener from urllib.error importURLError username ='username' password ='password' url ='http://localhost:5000/'# 自己搭建的服务器, 用于测试 # 1.示例化一个HTTPPasswordMgrWithDefaultRealm对象, 该对象将作为验证处理器实例化的参数传入 p =HTTPPasswordMgrWithDefaultRealm() # 使用p的add_password方法将用户名密码添加进p对象 p.add_password(None, url, username, password) # 2.实例化验证处理器对象, 并将p对象作为参数传进来 auth_handler =HTTPBasicAuthHandler(p) # 3.利用build_opener方法构建一个opener, 接下来就可以利用opener来请求服务器了 opener = build_opener(auth_handler) try: result = opener.open(url) html = result.read().decode('utf-8') print(html) exceptURLErroras e:# 处理异常 print(e.reason)
2)代理
from urllib.error importURLError from urllib.request importProxyHandler, build_opener # 1.构建代理处理器, 注意:代理处理器的构建不需要像认证处理器那样先实例化一个对象作为参数 proxy_handler =ProxyHandler({ 'http':'http://127.0.0.1:9743', 'https':'https://127.0.0.1:9743' }) # 2.构建opener opener = build_opener(proxy_handler) # 向服务器发起请求 try: response = opener.open('https://www.baidu.com') print(response.read().decode('utf-8')) exceptURLErroras e: print(e.reason)
3)Cookies
import http.cookiejar, urllib.request # 1.实例化一个cookie对象, 该对象将作为参数传入处理器中 cookie = http.cookiejar.CookieJar() # 2.构建一个cookie处理器, 将cookie对象出入 handler = urllib.request.HTTPCookieProcessor(cookie) # 请求服务器获取数据 opener = urllib.request.build_opener(handler) response = opener.open('http://www.baidu.com') # 遍历cookie对象, 查看请求时携带的cookie都有哪些内容, 下面代码不是请求需要的代码, 是为了给大家看看cookie是个什么鬼 for item in cookie: print(item.name+"="+item.value)
4.处理异常
# error简介 urllib的error模块定义了有request模块产生的异常,其中包含了URLError和HTTPError,其实HTTPError是URLError的子类 1.URLError URLError类来自urllib库的error模块,它继承自OSError类,是error异常模块的基类,有request,模块产生的异常都可以通过捕捉这个类来处理. from urllib import request, error try: # 下面网址是我博客网址改动的, 根本不存在这个页面, 所以请求会抛出异常 response = request.urlopen('https://www.cnblogs.com/Jermy/p/1082330800000000.html') except error.URLErroras e: print(e.reason) 2.HTTPError HTTPError是URLError的子类,专门用来处理HTTP请求错误,比如认证请求失败等。它有如下3个属性。 - code:返回HTTP状态码,比如404表示网页不存在,500表示服务器内部错误等。 - reason:同父类一样,用于返回错误的原因。 - headers:返回请求头。 from urllib import request, error try: # 下面网址是我博客网址改动的, 根本不存在这个页面, 所以请求会抛出异常 response = request.urlopen('https://www.cnblogs.com/Jermy/p/1082330800000000.html') except error.HTTPErroras e: print(e.reason, e.code, e.headers)
5.Robots协议
Robots协议也称作爬虫协议、机器人协议,它的全名叫作网络爬虫排除标准(RobotsExclusionProtocol),用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取。它通常是一个叫作robots.txt的文本文件,一般放在网站的根目录下。
当搜索爬虫访问一个站点时,它首先会检查这个站点根目录下是否存在robots.txt文件,如果存在,搜索爬虫会根据其中定义的爬取范围来爬取。如果没有找到这个文件,搜索爬虫便会访问所有可直接访问的页面。