我有一个Microsoft Word文档,我需要提取文本并将其按文档的每个部分结构化为数据框。文档的每个部分均以标题开头。标题在Word中的格式设置为“标题2”。例如:这是第一节这是第一部分的文本。这是文档的第二部分这是第二部分的内容。我需要获取数据框中每个节的文本,其中在AI列中将具有节名称,在BI列中将具有节文本。我是Python的新手,正在尝试docx打包,但是我唯一能做的就是根据我在stackoverflow中找到的函数获取全文函数(readDocx):#! python3from docx import Documentdef getText(filename): doc = Document(filename) fullText = [] for para in doc.paragraphs: fullText.append(para.text) return '\n'.join(fullText)获取文本的代码:import readDocxtest = readDocx.getText('THE FILE.docx')我能够找到标识标题的循环。问题是如何遍历文档并获取数据框中的每个标题和文本:from docx import Documentfrom docx.shared import Inchesdocs = Document("THE FILE.docx")for paragraph in docs.paragraphs: if paragraph.style.name=='Heading 2': print (paragraph.text)
添加回答
举报
0/150
提交
取消