为了账号安全,请及时绑定邮箱和手机立即绑定

如何使用pyPDF2从PDF格式的多页简历中提取文本数据?

如何使用pyPDF2从PDF格式的多页简历中提取文本数据?

德玛西亚99 2021-06-15 17:21:22
我从 PDF 格式的多页简历中提取文本内容,并尝试使用pyPDF2. 但是我在尝试编写内容时收到以下错误消息。这是我的代码:import PyPDF2newFile = open('details.txt', 'w')file = open("cv3.pdf", 'rb')pdfreader = PyPDF2.PdfFileReader(file)numPages = pdfreader.getNumPages()print(numPages)page_content = ""for page_number in range(numPages):    page = pdfreader.getPage(page_number)    page_content += page.extractText()newFile.write(page_content)print(page_content)file.close()newFile.close()错误信息:回溯(最近一次调用):文件“C:/Users/HP/PycharmProjects/CVParser/pdf.py”,第 16 行,在 newFile.write(page_content) 文件“C:\Program Files\Python37\lib\encodings\ cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't encode character '\u0141' in position 827: character maps to进程以退出代码 1 结束此代码已成功处理多页 PDF 文件(转换为 PDF 的 docx 文件)。如果有人知道解决方案,请帮助我。
查看完整描述

1 回答

?
慕工程0101907

TA贡献1887条经验 获得超5个赞

这将解决您在 Python 3 中的问题:


with open("Output.txt", "w") as text_file:

    print("{}".format(page_content), file=text_file)

如果以上方法对您不起作用,请尝试以下操作:


with open("Output1.txt", "wb") as text_file:


    text_file.write(page_content.encode("UTF-8"))


查看完整回答
反对 回复 2021-06-22
  • 1 回答
  • 0 关注
  • 166 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号