pdf2htmlEX: 高保真PDF至HTML转换器
先上Demo: http://coolwanglu.github.com/pdf2htmlEX/demo/demo.html 还有大家可能会关心的CJK http://coolwanglu.github.com/pdf2htmlEX/demo/chn.html 项目主页: https://github.com/coolwanglu/pdf2htmlEX Ubuntu PPA https://launchpad.net/~coolwanglu/+archive/pdf2htmlex Arch Linux https://aur.archlinux.org/packages.php?ID=62426 传统pdf2html有两种: 一种相当于pdf2text加一些比较弱的格式,基本跟pdf2text也差不了多少 pdf2htmlEX结合二者优点,既保留了文字,又保留了格式。
下载编译安装: 较新的poppler (0.20.3),自己编译时记得加参数–enable-xpdf-headers 欢迎各种意见,建议,fork,bug report |