为了账号安全,请及时绑定邮箱和手机立即绑定

过滤掉HTML标签并解析python中的实体

过滤掉HTML标签并解析python中的实体

哆啦的时光机 2021-03-21 12:16:42
因为正则表达式使我感到恐惧,所以我试图找到一种方法来删除所有HTML标记并从Python中的字符串解析HTML实体。
查看完整描述

3 回答

?
达令说

TA贡献1821条经验 获得超6个赞

使用lxml是最适合python的xml / html库。


import lxml.html

t = lxml.html.fromstring("...")

t.text_content()

如果只想清理html,请查看lxml.html.clean模块


查看完整回答
反对 回复 2021-03-22
?
白衣非少年

TA贡献1155条经验 获得超0个赞

使用BeautifulSoup!这是完美的选择,您将收到可疑美德的标记,并且需要从中获取合理的信息。只需传入原始文本,提取所有字符串标签,然后将它们加入即可。


查看完整回答
反对 回复 2021-03-22
?
沧海一幻觉

TA贡献1824条经验 获得超5个赞

尽管我同意Lucas的观点,正则表达式并不那么令人恐惧,但我仍然认为您应该使用专门的HTML解析器。这是因为HTML标准足够繁琐(尤其是如果您要任意分析从Internet删除的“ HTML”页面),则需要编写大量代码来处理特殊情况。似乎python开箱即用。


您还应该检查TidyLib的python绑定,该绑定可以清除损坏的HTML,从而使任何HTML解析的成功率都更高。


查看完整回答
反对 回复 2021-03-22
  • 3 回答
  • 0 关注
  • 237 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号