为了账号安全,请及时绑定邮箱和手机立即绑定

如何使用Java读取PDF文件?

如何使用Java读取PDF文件?

DIEA 2019-10-09 17:45:26
我想使用Java从PDF文件中读取一些文本数据。我怎样才能做到这一点?
查看完整描述

3 回答

?
子衿沉夜

TA贡献1828条经验 获得超3个赞

PDFBox是我为此找到的最好的库,它是全面的,如果您只是在进行基本文本提取,那么它确实非常易于使用。示例可以在这里找到。


它在页面上对此进行了解释,但要注意的一件事是,使用setStartPage()和setEndPage()时的开始索引和结束索引都包含在内。我第一次绕过了这个解释,然后花了我一段时间才意识到为什么每次打电话我回头一页以上!


Itext是另一种也可以与C#一起使用的替代方法,尽管我个人从未使用过它。它比PDFBox级别低,因此如果您只需要基本文本提取,则不太适合该工作。


查看完整回答
反对 回复 2019-10-09
?
隔江千里

TA贡献1906条经验 获得超10个赞

PDFBox包含用于文本提取的工具。


iText对文本操作提供了更底层的支持,但是您必须编写大量代码才能提取文本。


iText in Action很好地概述了从PDF提取文本的局限性,而与使用的库无关(第18.2节:提取和编辑文本),以及令人信服的解释,说明了为什么该库不支持文本提取。简而言之,编写处理简单情况的代码相对容易,但是从总体上来说,从PDF中提取文本基本上是不可能的。


查看完整回答
反对 回复 2019-10-09
  • 3 回答
  • 0 关注
  • 606 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信