LIMS系统仪器数据采集-使用xpdf解析pdf内容

mahongbiao 2018-02-28 原文

不同语言解析PDF内容都有各自的库，比如Java的pdfbox，.net的itextsharp。

c#解析PDF文本，关键代码可参考：

http://www.cnblogs.com/mahongbiao/p/7652788.html

此外也可使用OCR，关键代码可参考：

http://www.cnblogs.com/mahongbiao/p/3760867.html

这些类库解析PDF文本有一个弊端，就是可配置性不强，它们多数是用于PDF文件生成的，对于PDF文本内容的提取仅提供一两个函数供调用。

解析PDF文本，可使用xpdf，该工具为一命令行工具，因此可通过java或.net调用命令行执行。

c#调用示例代码：

 1             Process p = new Process();
 2             p.StartInfo.FileName = @"pdftotext.exe";
 3             p.StartInfo.UseShellExecute = false;
 4             p.StartInfo.RedirectStandardInput = true;
 5             p.StartInfo.RedirectStandardOutput = true;
 6             p.StartInfo.RedirectStandardError = true;
 7             p.StartInfo.CreateNoWindow = true;
 8             p.Start();
 9             p.StandardInput.WriteLine("test.pdf test.txt");
10             p.StandardInput.AutoFlush = true;
11             p.WaitForExit();
12             p.Close();

在使用itextsharp或者pdfbox解析某PDF文件时，文本内容以竖排的形式输出，不易解析信息。

而使用xpdf，则可以指定-layout参数，将其按照页面显示的布局方式输出。

下图为PDF样式：

下图为pdfBox、itextsharp解析出的内容样式：

下图为xpdf设置了layout后的解析样式：

可以看出，使用xpdf解析出的内容较容易识别出有意义的数据项。

例子中的中文没有解析出来，可通过配置PDF中文字体解决，xpdf的另一个强项功能，就是它支持配置pdf字体，有些PDF内容通过itextsharp解析不出来的情况下，使用xpdf在配置了正确字体后可以解析出内容。

版权声明：本文为mahongbiao原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/mahongbiao/p/8484151.html

LIMS系统仪器数据采集-使用xpdf解析pdf内容的更多相关文章

随机推荐

微信公众平台开发文档客服接口
当用户主动发消息给公众号的时候（包括发送信息、点击自定义菜单click事件、订阅事件、扫描二维码事件、支付成功 […]...
您，您们和你们
注意:用于多数时不加词尾“们”,两个人称“您俩”或“您二位”,三个人称“您仨”或“您三位”,三个人以上称“您诸 […]...
开源免费 java CMS – FreeCMS1.5-系统配置
下载地址：http://code.google.com/p/freecms/ 系统配置从FreeCMS […]...
Android颜色大全
<?xml version="1.0" encoding="utf-8"?> <resour […]...
JAVA课程设计（2019）——简易的学生管理系统
一、团队介绍团队名称：Coca-cola 组长：翁敬明二、项目Git地址及提交 https://gitee […]...
Linux内核源码分析之setup_arch (三)
1. 前言在 Linux内核源码分析之setup_arch (二) 中介绍了当前启动阶段的内存分配函数mem […]...
Google Performance工具，你还不会用？Git走起。
2018俄罗斯世界杯如火如荼的进行中，第一轮各种冷门，让大家的确大跌眼界，尤其是那些买球的同志们，慌得一笔，还 […]...
视频播放器
进入公司一个月拉，总于有机会写个视频播放器了，这次的工作内容主要是给视频播放器加上弹幕功能条，可惜是个小前端， […]...

展开目录

目录导航