1 回答
TA贡献1798条经验 获得超3个赞
您可以收集所有重复的单词,然后在它们前面加上_:
// Java 9+
String s = "This is a test\nAnd this is also a test\nAnd these are also tests\ntest\nЭто тест\nЭто также тест\nИ это также тесты";
String rx = "(?sU)\\b(\\w+)\\b(?=.*\\b\\1\\b)";
String[] results = Pattern.compile(rx).matcher(s).results().map(MatchResult::group).toArray(String[]::new);
System.out.println(s.replaceAll("(?U)\\b(?:" + String.join("|", results) + ")\\b", "_$0"));
// Java 8
String s = "This is a test\nAnd this is also a test\nAnd these are also tests\ntest\nЭто тест\nЭто также тест\nИ это также тесты";
String rx = "(?sU)\\b(\\w+)\\b(?=.*\\b\\1\\b)";
List<String> matches = new ArrayList<>();
Matcher m = Pattern.compile(rx).matcher(s);
while (m.find()) {
matches.add(m.group());
}
System.out.println(s.replaceAll("(?U)\\b(?:" + String.join("|", matches) + ")\\b", "_$0"));
请参阅在线 Java 演示和第二个片段演示。输出:
This _is _a _test
_And this _is _also a _test
And these are _also tests
test
_Это _тест
_Это _также тест
И это _также тесты
注意,我用与 DOTALL 嵌入标志选项组合替换了[\s\S]
解决方法构造(这样也可以匹配换行符),使用 Java 9+方法返回所有匹配项,并根据与OR 交替运算符连接的找到的匹配项构建最终模式。.
s
.
.results()
|
细节
(?sU)\b(\w+)\b(?=.*\b\1\b)
:(?sU)
- 嵌入的 DOTALL (.
也使匹配换行符)和 UNICODE_CHARACTER_CLASS (使所有速记 Unicode 感知)标志选项\b
- 字边界(\w+)
- 第 1 组:1+ 个单词、字符、字母、数字或_
s\b
- 字边界(?=.*\b\1\b)
- 紧邻右侧,必须有 0+ 个字符,尽可能多,后面跟有与第 1 组中相同的值作为整个单词。(?U)\\b(?:" + String.join("|", results) + ")\\b"
:这个图案看起来像(?U)\b(?:test|is|Это|тест|также)\b
(?U)
- 嵌入的 UNICODE_CHARACTER_CLASS 标志选项\b
- 字边界(?:test|is|Это|тест|также)
- 非捕获交替组\b
- 字边界
替换是_$0
第二个正则表达式,因为_
附加到整个匹配值$0
。
添加回答
举报