Python3+Requests-HTML+Requests-File解析本地html文件

lsdb 2021-09-07 原文

一、说明

解析html文件我喜欢用xpath不喜欢用BeautifulSoup，Requests的作者出了Requests-HTML后一般都用Requests-HTML。

但是Requests-HTML一开始就是针对Requests从网络请求页面计的，并不能解析本地html文件。

想用Requests-HTML解析本地html文件，我们可借助Requests-File库实现。

二、实现解析本地html文件

2.1 安装Requests-File

pip install requests-file

2.2 实现代码

mount方法类似挂载文件系统，但我不清楚其本质是将哪里挂到哪里，测试时使用相对（当前工作目录）路径找不到文件使用绝对路径可以，所以就使用了绝对路径并未深究。

import os
from requests_html import HTMLSession
from requests_file import FileAdapter

session = HTMLSession()

# 如果是网络文件此时即可直接请求
# session.get("https://www.baidu.com")

# 如果是本地文件，需要以下代码
# 挂载文件
session.mount(\'file://\', FileAdapter())
# Windows系统路径目录分隔符为反斜杠，但get需要正斜杠所以先进行一下替换
pwd = os.getcwd().replace("\\","/")
# 测试发现使用相对路径读不到文件，需要使用绝对路径
html_obj = session.get(f\'file:///{pwd}/want_to_parse.html\')

参考：

https://github.com/dashea/requests-file#requests-file

版权声明：本文为lsdb原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/lsdb/p/10233609.html

Python3+Requests-HTML+Requests-File解析本地html文件的更多相关文章

随机推荐

晶体三极管及其基本放大电路概述
晶体三极管主要分三个部分学习，第一，掌握三极管的基础知识，包括其电流分配原理、主要参数、模型分析和伏安特性曲线 […]...
【Java并发工具类】StampedLock：比读写锁更快的锁
前言 ReadWriteLock适用于读多写少的场景，允许多个线程同时读取共享变量。但在读多写少的场景中，还有 […]...
RGB颜色查询对照表
...
PPIO 商业化架构解析
目前大多数的区块链项目，设计时更重视代币发行，PPIO 的设计则非常重视业务场景的落地。我认为，存储和数据分发 […]...
Java GUI
GUI编程组件 Component窗口弹窗面板文本框列表框按钮图片监听事件鼠标键盘事件简介GUI 的核心技术 :Swing AWT界面不美观需要jre环境GUI是MVC基础,了解监听可以写自己的小工具AWTAWT...
Solidworks模型导入Gazebo(详细过程)
1、下载安装插件SW2URDF,在设置箭头中找到插件选项，SW2URDF打勾 2、在工具兰中打开 […]...
事件传递和响应链
前言看关于这方面的文章基本没有能涉及到UIGestureRecognizers相关的文章，因此决定写这样一篇 […]...
短信采集接口文档 – 小三的小四
短信采集接口文档 http://47.254.80.156:41203/request.html 发表于 20 […]...

展开目录

目录导航