为了账号安全,请及时绑定邮箱和手机立即绑定

使用Python从HTML文件中提取文本

使用Python从HTML文件中提取文本

30秒到达战场 2019-06-27 16:39:06
使用Python从HTML文件中提取文本我想使用Python从HTML文件中提取文本。如果我从浏览器复制文本并将其粘贴到记事本中,我基本上希望得到相同的输出。我想要比使用在格式错误的HTML上可能失败的正则表达式更健壮的东西。我见过很多人推荐美汤,但我在使用它时遇到了一些问题。首先,它获取不需要的文本,比如JavaScript源代码。此外,它没有解释HTML实体。例如,我希望在HTML源代码中将文本中的撇号转换为撇号,就像我将浏览器内容粘贴到记事本中一样。更新 html2text看上去很有希望。它正确地处理HTML实体,并忽略JavaScript。但是,它并不能准确地生成纯文本;它会生成标记,然后必须将其转换为纯文本。它没有示例或文档,但是代码看起来很干净。相关问题:过滤掉HTML标记并解析python中的实体将XML/HTML实体转换为Python中的Unicode字符串
查看完整描述

3 回答

?
长风秋雁

TA贡献1757条经验 获得超7个赞

html 2文本是一个Python程序,在这方面做得很好。


查看完整回答
反对 回复 2019-06-27
  • 3 回答
  • 0 关注
  • 4469 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信