使用Python从HTML文件中提取文本

使用Python从HTML文件中提取文本我想使用Python从HTML文件中提取文本。如果我从浏览器复制文本并将其粘贴到记事本中，我基本上希望得到相同的输出。我想要比使用在格式错误的HTML上可能失败的正则表达式更健壮的东西。我见过很多人推荐美汤，但我在使用它时遇到了一些问题。首先，它获取不需要的文本，比如JavaScript源代码。此外，它没有解释HTML实体。例如，我希望在HTML源代码中将文本中的撇号转换为撇号，就像我将浏览器内容粘贴到记事本中一样。更新 html2text看上去很有希望。它正确地处理HTML实体，并忽略JavaScript。但是，它并不能准确地生成纯文本；它会生成标记，然后必须将其转换为纯文本。它没有示例或文档，但是代码看起来很干净。相关问题：过滤掉HTML标记并解析python中的实体将XML/HTML实体转换为Python中的Unicode字符串

查看完整描述