为了账号安全,请及时绑定邮箱和手机立即绑定

阅读Word文档并获取每个标题的文本

阅读Word文档并获取每个标题的文本

哈士奇WWW 2021-05-12 09:41:00
我有一个Microsoft Word文档,我需要提取文本并将其按文档的每个部分结构化为数据框。文档的每个部分均以标题开头。标题在Word中的格式设置为“标题2”。例如:这是第一节这是第一部分的文本。这是文档的第二部分这是第二部分的内容。我需要获取数据框中每个节的文本,其中在AI列中将具有节名称,在BI列中将具有节文本。我是Python的新手,正在尝试docx打包,但是我唯一能做的就是根据我在stackoverflow中找到的函数获取全文函数(readDocx):#! python3from docx import Documentdef getText(filename):    doc = Document(filename)    fullText = []    for para in doc.paragraphs:        fullText.append(para.text)    return '\n'.join(fullText)获取文本的代码:import readDocxtest = readDocx.getText('THE FILE.docx')我能够找到标识标题的循环。问题是如何遍历文档并获取数据框中的每个标题和文本:from docx import Documentfrom docx.shared import Inchesdocs = Document("THE FILE.docx")for paragraph in docs.paragraphs:    if paragraph.style.name=='Heading 2':        print (paragraph.text)
查看完整描述

2 回答

  • 2 回答
  • 0 关注
  • 324 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信