BeautifulSoup4的使用

XiaoYang-sir 2021-08-22 原文

一、介绍

Beautiful Soup 主要是用来解析提取 HTML 和 XML 文件中的数据。

现在官网推荐使用 Beautiful Soup 4 ，已经被移植到了BS4中。

安装 Beautiful Soup：pip instal beautifulsoup4

使用格式：

实例化 Beautifulsoup 传入被解析的 HTML 文档内容和解析器，得到一个对象。

from bs4 import Beautifulsoup

soup = Beautifulsoup(html_doc, 'html.parser')

# 参数：
	-html_doc：被解析的html文档内容
    -html.parser：解析器

解析器：

解析器	使用方法	优势	劣势
Python标准库	`BeautifulSoup(markup, "html.parser")`	Python的内置标准库执行速度适中文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	`BeautifulSoup(markup, "lxml")`	速度快文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, ["lxml", "xml"])``BeautifulSoup(markup, "xml")	速度快唯一支持XML的解析器	需要安装C语言库
html5lib	`BeautifulSoup(markup, "html5lib")`	最好的容错性以浏览器的方式解析文档生成HTML5格式的文档	速度慢不依赖外部扩展

二、遍历文档树

遍历文档树就是直接通过标签名字选择，特点是选择速度快，但如果存在多个相同的标签则只能返回第一个。

用法：

from bs4 import Beautifulsoup

soup = Beautifulsoup(html_doc, 'html.parser')
对象 = soup.body.a		# 查找最开始第一个body标签下的第一个a标签


对象.name			  # 获取标签的名字
对象.attrs		  # 获取标签的所有属性
对象.get(属性名)		# 获取标签指定属性
对象.text			  # 获取标签的文本内容（子子孙孙都拼接在一起的）
对象.get_text()	  # 和上面一样
对象.string		  # 当前标签下有文本才取出来，否则全是None
对象.strings		  # 子子孙孙的内容都放大生成器中

三、搜索文档树

搜索文档树是通过主要的两个方法 find() 和 find_all() 去文档中查找指定标签。

五种过滤器

1、字符串：

from bs4 import Beautifulsoup
soup = Beautifulsoup(html_doc, 'html.parser')

soup.find_all('a')	# 查找所有的a标签

2、正则表达式

import re

soup.find_all(re.compile('^b'))		# 查找出所有以b开头的标签

3、列表

soup.find_all(['a', 'b'])	# 找到所有的a标签和b标签

4、True/False

soup.find_all(name=True)		# 匹配有name属性的标签

5、方法

如果没有合适的过滤器，就可以定义一个方法只接收一个元素参数，返回 True 表示匹配到并找到，否则 False

# 查找有类属性，没有id属性的标签
def fun(tag):
    return tag.has_attr('class') and not tag.has_attr('id')

soup.find_all(fun)

CSS选择器

使用方法和CSS选择器一样，用css选择器的格式去找标签

格式：

soup.select('css选择器')	# 返回列表

'''
#id
.class
#id a ——>匹配对应id下的所有a标签（子子孙孙）
#id>a ——>匹配对应id下的直接子节点，子标签
'''

本文链接：https://www.cnblogs.com/XiaoYang-sir/p/15173127.html

BeautifulSoup4的使用的更多相关文章

关于动态页面静态化的技术探索

关于动态页面静态化的技术探索一、准备工作 1、使用tornado部署后端服务架构图： 1、config.p […]...

Python爬虫之诗歌接龙

介绍本文将展示如何利用Python爬虫来实现诗歌接龙。该项目的思路如下：利用爬虫爬取诗歌，制作诗 […]...

selenium模块用法详解

selenium用法详解 selenium主要是用来做自动化测试，支持多种浏览器，爬虫中主要用来解决JavaS […]...

Python爬虫全网搜索并下载音乐

现在写一篇博客总是喜欢先谈需求或者本内容的应用场景，是的，如果写出来的东西没有任何应用价值，确实 […]...

Python 爬虫从入门到进阶之路（十八）

在之前的文章我们通过 scrapy 框架及 scrapy.Spider 类做了一个《糗事百科》的糗百爬虫，本 […]...

Python 爬虫从入门到进阶之路（十七）

在之前的文章中我们介绍了 scrapy 框架并给予 scrapy 框架写了一个爬虫来爬取《糗事百科》的糗事，本 […]...

爬虫之ssh证书警告错误

错误信息：错误信息如下： requests.exceptions.SSLError: ("bad hands […]...

爬虫学习笔记（四）正则表达式

上一篇博客写了怎么发请求和获取到数据，接下来就是该怎么处理数据了，打开一个网站之后，它会返回很多数据，数据很多 […]...

随机推荐

Docker学习资料

Docker学习资源菜鸟教程：https://www.runoob.com/docker/docker-im […]...

生物信息电脑运行环境搭建-Python R Linux

本文无计算机基础的学生，要如何为自己搭建在个人电脑上的工作环境，才能完成与服务器连接，数据传输，能安装管理运行 […]...

项目管理【22】 | 项目进度管理-估算活动持续时间

估算活动持续时间是根据资源估算的结果，估算每个活动需要的工作时段的数据的过程，其作用是确定完成每个活动所需花费 […]...

Mybatis的原理相关

今天看了一篇有关Mybatis非常好的文章，顺便写了一下学习心得。原文地址：https://blog.csd […]...

Ubuntu 网站服务器环境搭建

如果想用Ubuntu作为网站的服务器，一些基本的服务是必备的。本文对环境的搭建做一个简单的整理。如果想用Ub […]...

PPT中添加位置和大小都一致的图片的方法

PPT中添加位置和大小都一致的图片的方法我们制作PPT的时候，有时需要在多张PPT中的同一位置，放一张或者多 […]...

openssl笔记

环境变量： C:\OpenSSL-Win64;C:\OpenSSL-Win64\bin; https: […]...

一些DevTools的小技巧-让你不止会console.log()

为了遵守相关法律法规，合法合规运营，网站进行全面整改，整改工作于2021年3月18日12:00开始，预计于3月 […]...