我爬的网页源码顶端写的是 <meta charset="utf-8">我在浏览器打开源码看到我想要的信息也是中文,不过在urllib2.urlopen(url).read()输出来的却是类似于陈颖这种unicode编码(我的python程序是coding:utf-8)
3 回答
有只小跳蛙
TA贡献1824条经验 获得超8个赞
那可以试试这样:
>>> h = HTMLParser.HTMLParser()>>> import HTMLParser>>> h = HTMLParser.HTMLParser()>>> print h.unescape('陈颖')
宝慕林4294392
TA贡献2021条经验 获得超8个赞
import HTMLParser h = HTMLParser.HTMLParser() print h.unescape("陈颖").encode("utf-8")
添加回答
举报
0/150
提交
取消