为了账号安全,请及时绑定邮箱和手机立即绑定

爬网页时 unicode 和 utf-8的编码问题

爬网页时 unicode 和 utf-8的编码问题

翻阅古今 2019-04-23 15:35:46
我爬的网页源码顶端写的是我在浏览器打开源码看到我想要的信息也是中文,不过在urllib2.urlopen(url).read()输出来的却是类似于陈颖这种unicode编码然后我使用.encode('utf-8')也没有效果。。请问该怎么转成中文?(我的python程序是coding:utf-8)
查看完整描述

2 回答

?
慕容森

TA贡献1853条经验 获得超18个赞

importHTMLParser
h=HTMLParser.HTMLParser()
printh.unescape("陈颖").encode("utf-8")
陈颖
                            
查看完整回答
反对 回复 2019-04-23
?
陪伴而非守候

TA贡献1757条经验 获得超8个赞

那可以试试这样:>>>h=HTMLParser.HTMLParser()
>>>importHTMLParser
>>>h=HTMLParser.HTMLParser()
>>>printh.unescape('陈颖')
陈颖
                            
查看完整回答
反对 回复 2019-04-23
  • 2 回答
  • 0 关注
  • 391 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信