使用Python从HTML文件中提取文本我想使用Python从HTML文件中提取文本。如果我从浏览器复制文本并将其粘贴到记事本中,我基本上希望得到相同的输出。我想要比使用在格式错误的HTML上可能失败的正则表达式更健壮的东西。我见过很多人推荐美汤,但我在使用它时遇到了一些问题。首先,它获取不需要的文本,比如JavaScript源代码。此外,它没有解释HTML实体。例如,我希望在HTML源代码中将文本中的撇号转换为撇号,就像我将浏览器内容粘贴到记事本中一样。更新 html2text看上去很有希望。它正确地处理HTML实体,并忽略JavaScript。但是,它并不能准确地生成纯文本;它会生成标记,然后必须将其转换为纯文本。它没有示例或文档,但是代码看起来很干净。相关问题:过滤掉HTML标记并解析python中的实体将XML/HTML实体转换为Python中的Unicode字符串
添加回答
举报
0/150
提交
取消