首页手记手把手 |...

手把手 | 20行Python代码教你批量将PDF转为Word

标签：

Python

在日常工作或学习中，经常会遇到这样的无奈：

“小任，你把这个PDF中的文件码出来发我”

艹，倒霉，2M的PDF12点也完不了啊！

很多时候在学习时发现许多文档都是PDF格式，PDF格式却不利于学习使用，因此需要将PDF转换为Word文件，但或许你从网上下载了很多软件，但只能转换前五页（如WPS等），要不就是需要收费，那有没有免费的转换软件呢？

so，我们给各位带来了一个免费简单快速的方法，手把手教你用Python批量处理PDF格式文件，获取自己想要的内容，存为word形式。

在实现PDF转Word功能之前，我们需要一个python的编写和运行环境，同时安装好相关的依赖包。对于python环境，我们推荐使用PyCharm。在本地电脑环境，anaconda提供了非常便利的安装和部署。

PDF转Word功能所需的依赖包如下：

PDFParser（文档分析器）

PDFDocument（文档对象）

PDFResourceManager（资源管理器）

PDFPageInterpreter（解释器）

PDFPageAggregator（聚合器）

LAParams（参数分析器）

前期准备工作

说明：本文是在Windows7下使用python最新的3.6版本

1.安装pdfminer3k模块

安装anaconda后，直接可以通过pip安装

2.若安装不成功，可以试试下面方法

首先下载pdfminer3k：https://pypi.python.org/pypi/pdfminer3k；然后安装pdfminer，将下载好的pdfminer3k解压到D:或其他合适的盘符，通过win+r 打开运行窗口，输入cmd；输入D:切换到D盘，cd pdfminer3k(pdf解压的文件夹)，输入setup.py install安装软件。

最终显示Finished，则代表成功

代码实操

1.导入相关包

整体思路为：构造文档对象，解析文档对象，提取所需内容

构造文档对象

构造解释器

2.导入需要解析的PDF文件

将所需解析的文件与执行代码放到同一个目录下，如图：

test.pdf内容

3.具体代码如下：

from pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.layout import LAParamsfrom pdfminer.converter import PDFPageAggregatorfrom pdfminer.pdfinterp import PDFTextExtractionNotAlloweddef parse(): #rb以二进制读模式打开本地pdf文件 fn = open('test.pdf','rb') #创建一个pdf文档分析器 parser = PDFParser() #创建一个PDF文档 doc = PDFDocument() #连接分析器与文档对象 parser.set_document() doc.set_parser() # 提供初始化密码doc.initialize("lianxipython") # 如果没有密码就创建一个空的字符串 doc.initialize("") # 检测文档是否提供txt转换，不提供就忽略 if not doc.is_extractable: raise PDFTextExtractionNotAllowed else: #创建PDf资源管理器 resource = PDFResourceManager() #创建一个PDF参数分析器 laparams = LAParams() #创建聚合器,用于读取文档的对象 device = PDFPageAggregator(resource,laparams=laparams) #创建解释器，对文档编码，解释成Python能够识别的格式 interpreter = PDFPageInterpreter(resource,device) # 循环遍历列表，每次处理一页的内容 # doc.get_pages() 获取page列表 for page in doc.get_pages(): #利用解释器的process_page()方法解析读取单独页数 interpreter.process_page(page) #使用聚合器get_result()方法获取内容 layout = device.get_result() #这里layout是一个LTPage对象,里面存放着这个page解析出的各种对象 for out in layout: #判断是否含有get_text()方法，获取我们想要的文字 if hasattr(out,"get_text"): print(out.get_text()) with open('test.txt','a') as f: f.write(out.get_text()+' ')if __name__ == '__main__': parse()

最终得到的test.txt结果如下：

作者：诸葛玥
链接：https://www.jianshu.com/p/cf41bdcdd3f7

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

素胚勾勒不出你

手记
篇

粉丝

53

获赞与收藏

275

关注作者，订阅最新文章

阅读免费教程

Python 办公自动化教程

17个小节 27554 930

Python 算法入门教程

15个小节 30303 1172

Python 进阶应用教程

38个小节 72994 1146

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

手把手 | 20行Python代码教你批量将PDF转为Word

阅读免费教程