因为正则表达式使我感到恐惧,所以我试图找到一种方法来删除所有HTML标记并从Python中的字符串解析HTML实体。
3 回答

达令说
TA贡献1821条经验 获得超6个赞
使用lxml是最适合python的xml / html库。
import lxml.html
t = lxml.html.fromstring("...")
t.text_content()
如果只想清理html,请查看lxml.html.clean模块

白衣非少年
TA贡献1155条经验 获得超0个赞
使用BeautifulSoup!这是完美的选择,您将收到可疑美德的标记,并且需要从中获取合理的信息。只需传入原始文本,提取所有字符串标签,然后将它们加入即可。

沧海一幻觉
TA贡献1824条经验 获得超5个赞
尽管我同意Lucas的观点,正则表达式并不那么令人恐惧,但我仍然认为您应该使用专门的HTML解析器。这是因为HTML标准足够繁琐(尤其是如果您要任意分析从Internet删除的“ HTML”页面),则需要编写大量代码来处理特殊情况。似乎python开箱即用。
您还应该检查TidyLib的python绑定,该绑定可以清除损坏的HTML,从而使任何HTML解析的成功率都更高。
添加回答
举报
0/150
提交
取消