为了账号安全,请及时绑定邮箱和手机立即绑定

如何更改我的正则表达式以匹配/替换第二个、第三个……单词,但不匹配第一个单词?

如何更改我的正则表达式以匹配/替换第二个、第三个……单词,但不匹配第一个单词?

慕村225694 2023-10-12 17:08:51
该任务必须使用正则表达式来解决,而不使用容器类。输入:文本(可能由拉丁字母和西里尔字母组成,不包含_)输出:源文本,但在所有重复单词之前添加下划线_将单词视为仅包含字母的序列(所有其他字符不包含在单词中)。创建一个将输入转换为输出的静态转换方法。完成方法:public static String convert (String input) {    ...}输入示例:This is a testAnd this is also a testAnd these are also teststestЭто тестЭто также тестИ это также тесты输出示例:This _is _a _test_And this _is _also _a _test_And these are _also tests_test_Это _тест_Это _также _тестИ это _также тесты我的尝试:public static void convert(String input) {        Pattern p = Pattern.compile("(\\b\\w+\\b)(?=[\\s\\S]*\\b\\1\\b[\\s\\S]*\\b\\1\\b)", Pattern.UNICODE_CHARACTER_CLASS);        String res = p.matcher(input+" "+input).replaceAll("_$1");        res = res.substring(0, res.length() - 1 - p.matcher(input).replaceAll("_$1").length());        System.out.println(res);    }我的输出:在此处输入图像描述This _is _a _test_And this _is _also _a test_And these are _also tests_test_Это _тест_Это _также _тестИ это _также тесты第二行中的单词“test”没有“_”,但我需要“_test”
查看完整描述

1 回答

?
呼如林

TA贡献1798条经验 获得超3个赞

您可以收集所有重复的单词,然后在它们前面加上_:


// Java 9+

String s = "This is a test\nAnd this is also a test\nAnd these are also tests\ntest\nЭто тест\nЭто также тест\nИ это также тесты";

String rx = "(?sU)\\b(\\w+)\\b(?=.*\\b\\1\\b)";

String[] results = Pattern.compile(rx).matcher(s).results().map(MatchResult::group).toArray(String[]::new);

System.out.println(s.replaceAll("(?U)\\b(?:" + String.join("|", results) + ")\\b", "_$0"));


// Java 8

String s = "This is a test\nAnd this is also a test\nAnd these are also tests\ntest\nЭто тест\nЭто также тест\nИ это также тесты";

String rx = "(?sU)\\b(\\w+)\\b(?=.*\\b\\1\\b)";

List<String> matches = new ArrayList<>();

Matcher m = Pattern.compile(rx).matcher(s);

while (m.find()) {

    matches.add(m.group());

}

System.out.println(s.replaceAll("(?U)\\b(?:" + String.join("|", matches) + ")\\b", "_$0"));

请参阅在线 Java 演示第二个片段演示。输出:

This _is _a _test

_And this _is _also a _test

And these are _also tests

test

_Это _тест

_Это _также тест

И это _также тесты

注意,我用与 DOTALL 嵌入标志选项组合替换了[\s\S]解决方法构造(这样也可以匹配换行符),使用 Java 9+方法返回所有匹配项,并根据与OR 交替运算符连接的找到的匹配项构建最终模式。.s..results()|

细节

  • (?sU)\b(\w+)\b(?=.*\b\1\b):

    • (?sU)- 嵌入的 DOTALL (.也使匹配换行符)和 UNICODE_CHARACTER_CLASS (使所有速记 Unicode 感知)标志选项

    • \b- 字边界

    • (\w+)- 第 1 组:1+ 个单词、字符、字母、数字或_s

    • \b- 字边界

    • (?=.*\b\1\b)- 紧邻右侧,必须有 0+ 个字符,尽可能多,后面跟有与第 1 组中相同的值作为整个单词。

  • (?U)\\b(?:" + String.join("|", results) + ")\\b":这个图案看起来像(?U)\b(?:test|is|Это|тест|также)\b

    • (?U)- 嵌入的 UNICODE_CHARACTER_CLASS 标志选项

    • \b- 字边界

    • (?:test|is|Это|тест|также)- 非捕获交替组

    • \b- 字边界

替换是_$0第二个正则表达式,因为_附加到整个匹配值$0


查看完整回答
反对 回复 2023-10-12
  • 1 回答
  • 0 关注
  • 89 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信