为了账号安全,请及时绑定邮箱和手机立即绑定

Java 和 C 之间的代码点不匹配

Java 和 C 之间的代码点不匹配

慕少森 2022-09-21 17:38:07
所以,我在imgui到科特林的端口中的以下字符遇到了一些问题–在花了一整天的时间研究字符集和编码之后,我终于找到了我唯一的希望:依靠unicode代码点。JVM上的那个字符"–"[0].toInt() // same as codePointAt()返回代码点 u2013在C上,我不确定,但因为这是正在做的事情:const ImFontGlyph* ImFont::FindGlyph(ImWchar c) const{    if (c >= IndexLookup.Size)        return FallbackGlyph;    const ImWchar i = IndexLookup.Data[c];    if (i == (ImWchar)-1)        return FallbackGlyph;    return &Glyphs.Data[i];}哪里typedef unsigned short ImWchar和ImVector<ImWchar> IndexLookup; // Sparse. Index glyphs by Unicode code-point.所以,这样做char* a = "–";int b = a[0];返回代码点 u0096就我所读到的,看起来我们处于“扩展的Ascii”领域,这很糟糕,因为它似乎有不同的版本/解释。1270x7F例如,此编码表与我的代码点不匹配,但 Cp1252 编码匹配,因此我倾向于认为这是 C 上实际使用的编码。在刚才提到的链接底部的表格中,您实际上可以看到(小数,从右列与给定数字开始的计数)确实对应于(十六进制,我发现它有点不连贯,但无论如何)。1502013为了解决这个问题,我试图将我在Kotlin上的s转换为相同的编码(暂时忽略这当然是特定于平台的),所以对于每个Stringc: Char"$c".toByteArray(Charset.forName("Cp1252"))[0].toUnsignedInt这有效,但会中断外来字体(如中文、日文等)的渲染。所以,我的问题是:为什么在JVM和C上有什么区别?u2013u0096哪种是正确的处理方法?
查看完整描述

1 回答

?
慕后森

TA贡献1802条经验 获得超5个赞

目前我在Windows上解决了这个问题,我在检索字符代码点之前插入了这个函数。它基本上重新映射了所有与ISO-8859-1不同的字符。你可以在这个表格中看到它们,它们都是那些带有浅灰色边框的人。

internal fun Char.remapCodepointIfProblematic(): Int {

    val i = toInt()

    return when (Platform.get()) {

        /*  https://en.wikipedia.org/wiki/Windows-1252#Character_set

         *  manually remap the difference from  ISO-8859-1 */

        Platform.WINDOWS -> when (i) {

            // 8_128

            0x20AC -> 128 // €

            0x201A -> 130 // ‚

            0x0192 -> 131 // ƒ

            0x201E -> 132 // „

            0x2026 -> 133 // …

            0x2020 -> 134 // †

            0x2021 -> 135 // ‡

            0x02C6 -> 136 // ˆ

            0x2030 -> 137 // ‰

            0x0160 -> 138 // Š

            0x2039 -> 139 // ‹

            0x0152 -> 140 // Œ

            0x017D -> 142 // Ž

            // 9_144

            0x2018 -> 145 // ‘

            0x2019 -> 146 // ’

            0x201C -> 147 // “

            0x201D -> 148 // ”

            0x2022 -> 149 // •

            0x2013 -> 150 // –

            0x2014 -> 151 // —

            0x02DC -> 152 // ˜

            0x2122 -> 153 // ™

            0x0161 -> 154 // š

            0x203A -> 155 // ›

            0x0153 -> 156 // œ

            0x017E -> 158 // ž

            0x0178 -> 159 // Ÿ

            else -> i

        }

        else -> i // TODO

    }

}


查看完整回答
反对 回复 2022-09-21
  • 1 回答
  • 0 关注
  • 90 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信