python中使用tabula爬取pdf数据并导出表格

Estate-47 2021-11-11 原文

Tabula是专门用来提取PDF表格数据的，同时支持PDF导出CSV、Excel格式，我们可以利用它爬取需求数据，并以表格形式更好的呈现出来。

Tabula是专门用来提取PDF表格数据的，同时支持PDF导出CSV、Excel格式。

首先安装tabula-py:

tabula-py依赖库包括Java、pandas、numpy所以需要保证运行环境中安装了这些库。

在Python中配置好Java后看能否正常运行

把PDF中爬取出来的数据制成表格，需要加载openpyxl：

需要读取平均页数有二三百多页的PDF文件数据，爬取出需求数据，以及按需求格式制成不同的sheet表：

把写好的Python文件放在和PDF文件放在同一目录下，运行Python文件自动导出我们所需的表格

执行以上代码，成功导出提取的数据，同时也可以访问网站：https://tabula.technology/进行在线解析pdf

以上方法完美的解决了在PDF中提取表格数据，同时支持PDF导出CSV、Excel格式，减少了手工输入，自动化简化了工作。

文章如有错误请给与指教，谢谢！

随机推荐

爬虫之爬虫概述

环境: anaconda anaconda: 是一个集成环境(数据分析+机器学习),提供了一个叫做jupyte […]...

rar.exe 压缩命令

例:把D:\webs\目录下的所有东西打包为1.rar放到D:\webs\目录下,以便下载 rar.exe a […]...

关于主场的自信力

关于主场的自信力这是看了一个my English is poor话题的视频之后，引发了一些思考。这是关于不 […]...

准备工作来个react项目 create-react-app 基于TS的项目 ts项目安装后删除node_ […]...

进口不锈钢防爆电磁阀

进口法兰电磁阀,进口不锈钢防爆电磁阀,进口不锈钢高压电磁阀,进口高压内螺纹电磁阀是美国布雷尔阀门（Buhre […]...

单向链表的基本运算

// // main.cpp // 单向链表的基本运算 // // Created by 柯木超 on […]...

什么是REST? REST是一个标准，一种规范，遵循REST风格可以使开发的接口通用，便于调用者理解接口的作用 […]...

事情是这样的：今年年初的时候，公司准备筹划一个直播项目，在原有的 APP 中嵌入直播模块，其中的一个问题就是直 […]...

python中使用tabula爬取pdf数据并导出表格的更多相关文章