为了账号安全,请及时绑定邮箱和手机立即绑定

如何遍历Java String的unicode代码点?

如何遍历Java String的unicode代码点?

潇湘沐 2019-08-12 18:36:33
如何遍历Java String的unicode代码点?所以我知道String#codePointAt(int),但它是由char偏移索引,而不是由代码点偏移索引。我正在考虑尝试这样的事情:使用String#charAt(int)得到char的指数测试是否char在高代理范围内如果是这样,使用String#codePointAt(int)获取代码点,并将索引增加2如果不是,则使用给定char值作为代码点,并将索引递增1但我担心的是我不确定自然处于高代理范围内的代码点是否会存储为两个char值或一个值这似乎是迭代字符的一种非常昂贵的方式有人必须想出更好的东西。
查看完整描述

3 回答

?
DIEA

TA贡献1820条经验 获得超2个赞

是的,Java使用UTF-16-esque编码来表示字符串的内部表示,是的,它使用代理方案对基本多语言平面(BMP)之外的字符进行编码。

如果你知道你将处理BMP之外的字符,那么这是迭代Java字符串字符的规范方法:

final int length = s.length();for (int offset = 0; offset < length; ) {
   final int codepoint = s.codePointAt(offset);

   // do something with the codepoint

   offset += Character.charCount(codepoint);}


查看完整回答
反对 回复 2019-08-12
  • 3 回答
  • 0 关注
  • 722 浏览

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号