为了账号安全,请及时绑定邮箱和手机立即绑定

碶 㯖 这两个字编码上有什么区别吗?

碶 㯖 这两个字编码上有什么区别吗?

慕雪6442864 2018-12-10 13:31:26
我用UTF8转GBK,用的iconv函数void TransContent(const char *pFromCode, const char *pToCode, const char *pInBuf, size_t iInLen, char *pOutBuf, size_t iOutLen){    char* sResult = NULL;    //打开字符集转换     iconv_t hIconv = iconv_open(pToCode, pFromCode);    if (!hIconv) return;    //开始转换     size_t iRet = iconv(hIconv, (char **)(&pInBuf), &iInLen, &pOutBuf, &iOutLen);    //关闭字符集转换     iconv_close(hIconv); } TransContent("UTF-8", "GBK//IGNORE", "碶", strlen("碶"), pOutputBuf, sizeof(pOutputBuf)); TransContent("UTF-8", "GBK//IGNORE", "㯖", strlen("㯖"), pOutputBuf, sizeof(pOutputBuf));碶这个字会被转换为未知字符,㯖这个字会被ignore掉,变成""。GBK字符集里面这两个字都没有,为什么一个会被错误转码,一个会被ignore?ignore是因为识别不了,被转换为"",错误编码是因为系统以为能识别,结果转码错误了。所以这俩字有啥区别?https://blog.csdn.net/wang123...我看这个文章说 碶 这个字 实际上是 碶\那遇到这种情况该怎么转码呢?
查看完整描述

1 回答

?
慕尼黑8549860

TA贡献1818条经验 获得超11个赞

我用 PHP 的两种字符转换库试了一下

iconv 碶
UTF-8
[len] 1
[碶]
[0xE7 0xA2 0xB6]
GBK
// 报错了
iconv 㯖
UTF-8
[㯖]
[0xE3 0xAF 0x96]
[len] 0
GBK
// 没有输出
mbstring 碶
UTF-8
[len] 1
[碶]
[0xE7 0xA2 0xB6]
GBK
[len] 2
[纰] []
[0xE7 0xA2] [0xB6]
mbstring 㯖
UTF-8
[len] 1
[㯖]
[0xE3 0xAF 0x96]
GBK
[len] 2
[惘] []
[0xE3 0xAF] [0x96]

mbstring 两个字都转换了
iconv 一个转成了空,另一个报错了

综合你的代码输出,应该是 iconv 的实现问题,mbstring 就都能转不是么?
印象里看到过相关的文章,两个内部应该都是 查表


查看完整回答
反对 回复 2018-12-10
  • 1 回答
  • 0 关注
  • 797 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信