1 回答
TA贡献1777条经验 获得超3个赞
似乎 Python 不想接受某些字节序列作为有效的 UTF-8,而某些网站(https://mothereff.in/utf-8)接受它。其中一个肯定是错的,对吧?让我们来看看。
b'\xc2\xb7'Python 接受前两个字节 ( )。Python 不喜欢的第一件事是:\xed\xa0\x81\xed\xb1\x96,在那个网站上被解释为 𐑖。
让我们看一下\xed\xa0\x81\xed\xb1\x96二进制格式:
11101101
10100000
10000001
11101101
10110001
10010110
RFC3629说 UTF-8 被解释为:
Char. number range | UTF-8 octet sequence
(hexadecimal) | (binary)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
因此,有两个三字节字符:
1110 1101 10 100000 10 000001 ⇒ 1101100000000001,或 D801
1110 1101 10 110001 10 010110 ⇒ 1101110001010110,或 DC56
性格D801是高级代理之一,DC56也是低级代理之一。
您可以在此处查看如何组合代理:
代理对表示代码点 0x10000 + (H − 0xD800) × 0x400
(L − 0xDC00) 其中 H 和 L 分别是高和低代理的数值。
如果你把它们结合起来,你会得到:
0x10000 + (0xD801 - 0xD800) * 0x400 + (0xDC56 - 0xDC00) = 0x10456,也就是𐑖
然而,高和低代理是为不适合 16 位的字符的 UTF-16 表示而设计的,这就是unicode.org关于在 UTF-8 中使用这种代理对的说法:
问:如何将 UTF-16 代理对转换为<D800 DC00>UTF-8?作为一个 4 字节序列还是作为两个单独的 3 字节序列?
答:UTF-8 的定义要求补充字符(在 UTF-16 中使用代理对的那些)使用单个 4 字节序列进行编码。然而,在旧软件中生成 3 字节序列对的做法很普遍,尤其是在引入 UTF-16 之前或在特定约束下与 UTF-16 环境互操作的软件。这种编码不符合定义的 UTF-8。有关此类非 UTF-8 数据格式的正式描述,请参见UTR #26:UTF-16:8 位 (CESU) 的兼容性编码方案。使用 CESU-8 时,由于格式的相似性,必须非常小心不要将数据意外地视为 UTF-8。[自动对焦]
这里的关键点是“这样的编码不符合定义的 UTF-8”。所以,你的输入实际上是一个无效的 UTF-8 序列,Python 拒绝了它。
要回答这个问题:
https://mothereff.in/utf-8忽略了 unicode.org 将其视为无效的指令。
Python 将其视为无效。
如果您想对其进行解码,即使它无效,您也可以编写一个函数来完成我手动执行的操作。
添加回答
举报