为了账号安全,请及时绑定邮箱和手机立即绑定

使用pdfbox 2.0.X jar提取文本

使用pdfbox 2.0.X jar提取文本

芜湖不芜 2021-04-09 14:10:51
我有一个pdf文件的Inputstream。现在,我想从inputStream中提取所有字符串内容。我发现了以下示例。我应该使用第一个还是第二个?两者之间在性能上有什么区别吗?PDFParser在第二篇中有什么用?片段1:PDDocument doc = PDDocument.load(is);PDFTextStripper stripper = new PDFTextStripper();String result = stripper.getText(doc);片段2:PDFTextStripper stripper = new PDFTextStripper();PDFParser parser = new PDFParser(newRandomAccessBufferedFileInputStream(stream));parser.parse();doc = parser.getPDDocument();String content = stripper.getText(doc);提前致谢 !!!
查看完整描述

1 回答

?
繁星淼淼

TA贡献1775条经验 获得超11个赞

使用第一个代码。第二个代码也可以工作,但是已经过时并且没有什么不同,解析的东西在内部调用load()。速度是一样的。通过使用文件作为参数或字节数组,您将获得最佳结果。使用流将需要PDFBox进行一些额外的缓冲。您的代码不会告诉您stream来自何处。如果是FileInputStream,则应该File改用。


查看完整回答
反对 回复 2021-04-14
  • 1 回答
  • 0 关注
  • 201 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信