为了账号安全,请及时绑定邮箱和手机立即绑定

用Python字符串解码HTML实体?

用Python字符串解码HTML实体?

智慧大石 2019-06-01 15:47:32
用Python字符串解码HTML实体?我正在用BeautifulSoup 3解析一些HTML,但是它包含的HTML实体不是针对我自动解码的:>>> from BeautifulSoup import BeautifulSoup>>> soup = BeautifulSoup("<p>&pound;682m</p>")>>> text = soup.find("p").string>>> print text&pound;682m如何解码HTML实体text得到"£682m"而不是"&pound;682m".
查看完整描述

4 回答

?
慕村9548890

TA贡献1884条经验 获得超4个赞

美丽的汤处理实体转换。在“美丽汤”3中,您需要指定convertEntitiesBeautifulSoup构造函数(请参阅“实体转换”(存档文档的部分)。在美汤4,实体被自动解码。

美汤3

>>> from BeautifulSoup import BeautifulSoup>>> BeautifulSoup("<p>&pound;682m</p>", ...              
 convertEntities=BeautifulSoup.HTML_ENTITIES)<p>£682m</p>

美汤4

>>> from bs4 import BeautifulSoup>>> BeautifulSoup("<p>&pound;682m</p>")<html><body><p>£682m</p></body></html>


查看完整回答
反对 回复 2019-06-01
?
千万里不及你

TA贡献1784条经验 获得超9个赞

您可以使用w3lib.html库中的替换_实体。

In [202]: from w3lib.html import replace_entitiesIn [203]: replace_entities("&pound;682m")Out[203]:
 u'\xa3682m'In [204]: print replace_entities("&pound;682m")£682m


查看完整回答
反对 回复 2019-06-01
  • 4 回答
  • 0 关注
  • 1256 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信