python爬取网页内容demo

hujianglang 2021-09-19 原文

 1 #html文本提取
 2 from bs4 import BeautifulSoup
 3 html_sample = \'\
 4 <html> \
 5 <body> \
 6 <h1 id = "title">Hello world</h1>\
 7 <a href = "#www.baidu.com" class = "link"> This is link1</a>\
 8 <a href = "#link2" class = "link"> This is link2</a> \
 9 </body> \
10 </html>\'
11 soup = BeautifulSoup(html_sample,\'html.parser\')
12 print(soup.text)
13 soup.select(\'h1\')
14 print(soup.select(\'h1\')[0].text)
15 print(soup.select(\'a\')[0].text)
16 print(soup.select(\'a\')[1].text)
17 
18 for alink in soup.select(\'a\'):
19     print(alink.text)
20 
21 print(soup.select(\'#title\')[0].text)
22 print(soup.select(\'.link\')[0].text)
23 
24 alinks = soup.select(\'a\')
25 for link in alinks:
26     print(link[\'href\'])

demo2:

 1 import requests
 2 from bs4 import BeautifulSoup
 3 res = requests.get(\'http://news.qq.com/\')
 4 soup = BeautifulSoup(res.text,\'html.parser\')
 5 newsary = []
 6 for news in soup.select(\'.Q-tpWrap .text\'):
 7     newsary.append({\'title\':news.select(\'a\')[0].text, \'url\':news.select(\'a\')[0][\'href\']})
 8 
 9 import pandas 
10 newsdf = pandas.DataFrame(newsary)
11 newsdf.to_excel(\'news.xlsx\')

推荐使用：Jupyter Notebook 做练习，很方便。

版权声明：本文为hujianglang原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/hujianglang/p/9650329.html

python爬取网页内容demo的更多相关文章

随机推荐

Appium自动化（11） – 详解 Applications 类里的方法和源码解析
如果你还想从头学起Appium，可以看看这个系列的文章哦！ https://www.cnblogs.com/p […]...
C# 使用Emit实现动态AOP框架 (二)
实现DynamicProxy前，先介绍几个必要的辅助类：一、切面上下文类AspectContext […]...
使用 NodeJs 观看文件系统
使用 NodeJs 观看文件系统监视文件系统意味着监视特定目录或文件的更改。有时您可能需要持续观察特定文件或目录的更改。出于这个原因，我们使用文件系统观察器，如乔基达或内置的 NodeJs 文件系统方法 fs.watch() .但...
visio画任意形状图形
1，连接线–右击—曲线连接线 2，选中组合 3，开发工具–操作– […]...
NTLM SSO的实现
最近项目中要求实现Web应用的SSO（Single Sign On），即对于已经登录到Windows Doma […]...
项目管理的PERT与CPM的优缺点
一，名词解释　　PERT: Performance Evaluation Review Tech […]...
tcpdump工具使用说明
tcpdump采用命令行方式对接口的数据包进行筛选抓取，其丰富特性表现在灵活的表达式上。注意，tcpdump […]...
java实现手机短信验证全过程
手机短信验证现在在各种系统可以说都是用的非常普遍的，这个可能是方便和安全性的考虑，所以才广泛的使用，这篇文章就 […]...

展开目录

目录导航