如何遍历Java String的unicode代码点?所以我知道String#codePointAt(int),但它是由char偏移索引,而不是由代码点偏移索引。我正在考虑尝试这样的事情:使用String#charAt(int)得到char的指数测试是否char在高代理范围内如果是这样,使用String#codePointAt(int)获取代码点,并将索引增加2如果不是,则使用给定char值作为代码点,并将索引递增1但我担心的是我不确定自然处于高代理范围内的代码点是否会存储为两个char值或一个值这似乎是迭代字符的一种非常昂贵的方式有人必须想出更好的东西。
3 回答

DIEA
TA贡献1820条经验 获得超2个赞
是的,Java使用UTF-16-esque编码来表示字符串的内部表示,是的,它使用代理方案对基本多语言平面(BMP)之外的字符进行编码。
如果你知道你将处理BMP之外的字符,那么这是迭代Java字符串字符的规范方法:
final int length = s.length();for (int offset = 0; offset < length; ) { final int codepoint = s.codePointAt(offset); // do something with the codepoint offset += Character.charCount(codepoint);}
添加回答
举报
0/150
提交
取消