为了账号安全,请及时绑定邮箱和手机立即绑定

从python中的MS word文件中提取文本

从python中的MS word文件中提取文本

达令说 2019-07-30 15:51:19
从python中的MS word文件中提取文本为了在python中使用MS word文件,有python win32扩展,可以在windows中使用。我如何在linux中做同样的事情?有图书馆吗?
查看完整描述

3 回答

?
侃侃无极

TA贡献2051条经验 获得超10个赞

您可以对antiword进行子进程调用。Antiword是一个linux命令行实用程序,用于从单词doc中转储文本。适用于简单文档(显然它会丢失格式)。它可以通过apt,也可以作为RPM,或者你可以自己编译。


查看完整回答
反对 回复 2019-07-30
?
呼唤远方

TA贡献1856条经验 获得超11个赞

使用本机Python docx模块。以下是如何从doc中提取所有文本:

document = docx.Document(filename)docText = '\n\n'.join([
    paragraph.text.encode('utf-8') for paragraph in document.paragraphs])print docText

请参阅Python DocX站点

还可以查看Textract,它可以拉出表格等。

使用正则表达式解析XML会调用cthulu。不要这样做!


查看完整回答
反对 回复 2019-07-30
  • 3 回答
  • 0 关注
  • 1257 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信