为了账号安全,请及时绑定邮箱和手机立即绑定

如何读取亚洲语言(中文,日文,泰文等)的PDF文件并以python字符串形式存储

如何读取亚洲语言(中文,日文,泰文等)的PDF文件并以python字符串形式存储

陪伴而非守候 2021-04-02 10:11:56
我正在使用PyPDF2读取python中的PDF文件。虽然该库对英语和欧洲语言(英语字母)非常有效,但该图书馆无法读取日文和中文等亚洲语言。我尝试过encode('utf-8'),decode('utf-8')但似乎没有任何效果。它仅在提取文本时打印空白字符串。我尝试了其他库,例如textract和PDFMiner,但尚未成功。当我从PDF复制文本并将其粘贴到笔记本上时,字符变成一些随机格式的文本(可能采用不同的编码)。def convert_pdf_to_text(filename):    text = ''    pdf = PyPDF2.PdfFileReader(open(filename, "rb"))    if pdf.isEncrypted:        pdf.decrypt('')    for page in pdf.pages:        text = text + page.extractText()    return text谁能指出我正确的方向?
查看完整描述

1 回答

?
DIEA

TA贡献1820条经验 获得超2个赞

我也面临类似的问题。我可以通过使用“ tika-python”库来解决它。


import tika

tika.initVM()

from tika import parser

parsed = parser.from_file('fileName.pdf')

print(parsed["metadata"])

print(parsed["content"])

您可以在此处找到有关该库的更多信息。


查看完整回答
反对 回复 2021-04-13
  • 1 回答
  • 0 关注
  • 267 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号