将XML/HTML实体转换为Python中的Unicode字符串我正在做一些Web抓取,网站经常使用HTML实体来表示非ascii字符。Python是否有一个带有HTML实体的字符串并返回Unicode类型的实用程序?例如:我回来了:ǎ表示带有音调标记的“ǎ”。在二进制文件中,这被表示为16位01ce。我希望将html实体转换为值。u'\u01ce'
4 回答

饮歌长啸
TA贡献1951条经验 获得超3个赞
import HTMLParserh = HTMLParser.HTMLParser()h.unescape('© 2010') # u'\xa9 2010'h.unescape('© 2010') # u'\xa9 2010'

哔哔one
TA贡献1854条经验 获得超8个赞
unichr
>>> entity = 'ǎ'>>> unichr(int(entity[3:],16))u'\u01ce'

婷婷同学_
TA贡献1844条经验 获得超8个赞
>>> import lxml.html>>> lxml.html.fromstring('ǎ').text u'\u01ce'
添加回答
举报
0/150
提交
取消