如何从PDF文件中提取文本?我正在尝试使用提取此 PDF文件中包含的文本Python。我正在使用PyPDF2模块,并具有以下脚本:import PyPDF2pdf_file = open('sample.pdf')read_pdf = PyPDF2.PdfFileReader(pdf_file)number_of_pages = read_pdf.getNumPages()page = read_pdf.getPage(0)page_content = page.extractText()print page_content当我运行代码时,我得到以下输出,该输出与PDF文档中包含的输出不同:!"#$%#$%&%$&'()*%+,-%./01'*23%4
5'%1$#26%3/%7/))/8%&)/26%8#3"%3"*%313/9#&)
%如何在PDF文档中提取文本?
添加回答
举报
0/150
提交
取消