我正在尝试解析 docx 文件。我先解压缩它,然后尝试读取 Document.xml 文件,with open(..)并引发错误“'charmap'编解码器无法解码位置 7618 中的字节 0x98:字符映射到”。XML 是“UTF-8”编码:错误:我写了以下代码: with open(self.tempDir + self.CONFIG['main_xml']) as xml_file:
self.dom_xml = etree.parse(xml_file)我尝试强制编码为 UTF-8,但随后我无法etree.fromstring(..)正确读取7618 符号(来自错误)是:请帮我。如何正确读取xml文件?谢谢
1 回答
![?](http://img1.sycdn.imooc.com/54584cfb0001308402200220-100-100.jpg)
蝴蝶刀刀
TA贡献1801条经验 获得超8个赞
这对您的文件没有错误:
import zipfile
import xml.etree.ElementTree as ET
zipfile.ZipFile('file.docx').extractall()
root = ET.parse('word/document.xml').getroot()
添加回答
举报
0/150
提交
取消