从Unicode字符中删除Diacritic标记(ńǹňṅņṇṋṉ̈ɲƞᶇɳȵ)我正在看一种算法,它可以在字符之间使用对话(蒂尔德, 回旋, 卡雷特, 乌姆劳特, 卡隆)和他们“简单”的性格。例如:ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ --> ná --> aä --> aấ --> aṏ --> o等。我想用Java来做这件事,尽管我怀疑它应该是Unicode-y的东西,并且在任何语言中都应该是相当容易做到的。目的:方便搜索带有指示符号的单词。例如,如果我有一个网球运动员的数据库,并且输入了Bj rn_Borg,我也会保留Bjorn_Borg,这样如果有人进入Bjorn而不是Bj rn,我就可以找到它。
3 回答
拉风的咖菲猫
TA贡献1995条经验 获得超2个赞
Collator
PRIMARY
CollationKey
CollationKey
Collator c = Collator.getInstance();c.setStrength(Collator.PRIMARY); Map<CollationKey, String> dictionary = new TreeMap<CollationKey, String>(); dictionary.put(c.getCollationKey("Björn"), "Björn");...CollationKey query = c.getCollationKey("bjorn"); System.out.println(dictionary.get(query)); // --> "Björn"
Collator
添加回答
举报
0/150
提交
取消