Python

                                                                                                                                                                                —小白121的记录笔记

 

Beautifulsoup

beautifulsoup 是 爬虫的一个第三方库,主要用于过滤出有用的数据

pip和ide工具都可以进行安装

 

 

BeautifulSoup 将 HTML 分成 四个对象

 

  • Tag
  • NavigableString
  • BeautifulSoup
  • Comment

创建 Beautifulsoup 对象

soup = BeautifulSoup(html)

打印soup对象的内容

print(soup.prettify()

打印 Tag


print(soup.html.encode(‘utf-8’))
print(soup.title.encode(‘utf-8’))
print(soup.head.encode(‘utf-8’))
print(soup.a.encode(‘utf-8’))
print(soup.p.encode(‘utf-8’))

 

 

所以 Tag 即使 HTML 里面的各种标签

对于Tag来说,有两个重要的属性

  • name
  • attrs

print(soup.title.name)
print(soup.a.attrs)

name 输入当前标签名字

attrs 把a标签的所以属性打印出来

 

Navigablestring

print(soup.a.string)

显示当前标签的内容

 

单词

sibling    兄弟姐妹

with        等待

element    要素

document    文档

previous    以前的

 

版权声明:本文为forever121812原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/forever121812/p/9245690.html