为了账号安全,请及时绑定邮箱和手机立即绑定

使用python如何得到此种编码测试所对应的中文呢

使用python如何得到此种编码测试所对应的中文呢

吃鸡游戏 2019-04-08 11:17:50
整理了以下几种编码:编码1:测试编码2:\u6d4b\u8bd5编码3:测试编码4:%e6%b5%8b%e8%af%95在编程过程中,经常会碰到很多的编码格式的数据,现在自己对于N多的编码格式还是一头雾水。不知道大家是怎么准确识别各种编码的呢?另外:使用python如何得到此种编码测试所对应的中文呢?
查看完整描述

2 回答

?
慕姐8265434

TA贡献1813条经验 获得超2个赞

余兴节目。
前三个都是Unicode原始值,最后一个是UTF-8。简单的用Python说明一下:
>>>s=b'\xe6\xb5\x8b\xe8\xaf\x95'
>>>print(s.decode('utf-8'))
测试
>>>u=u'\u6d4b\u8bd5'
>>>print(u)
测试
每个Unicode字符的编码只有一个,表示为一个或长或短的十六进制数。但把一串Unicode转换成真正用于存储和传输的字节序列,办法很多。UTF-8就是使用最广泛(绝大多数情况下也应该使用)的一种Unicode编码方法。
至于格式的不同,只是用的地方不一样,用不同的格式封一下。我记得编码1和3是HTML实体,2是Python的Unicode字符表示法,4是URL中不能直写字符的转义表示法。
                            
查看完整回答
反对 回复 2019-04-08
?
眼眸繁星

TA贡献1873条经验 获得超9个赞

1和3是HTML实体,可以通过标准库HTMLParser来解析:
#coding=utf8
importHTMLParser
parser=HTMLParser.HTMLParser()
s1=parser.unescape('测试')
prints1
#output:测试
s2=parser.unescape('测试')
prints2
#output:测试
2是unicode字面值,要想获得真正的unicode,可以这样做:
In[1]:u=unicode('\u6d4b\u8bd5','unicode_escape')
In[2]:u
Out[2]:u'\u6d4b\u8bd5'
In[3]:printu
测试
                            
查看完整回答
反对 回复 2019-04-08
  • 2 回答
  • 0 关注
  • 268 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信