我想计算 .fdt/.fdx/.fdxt 文件中的单词数我将 .fdxt 转换为 .html,然后进一步解析它。它在某些情况下取得了成功,但并非全部。 String html=""; Scanner sc = new Scanner(new File("/home/de-10/Desktop/1.html")); while(sc.hasNextLine()) { html+=sc.nextLine(); } sc.close(); System.out.println(html); Document doc = Jsoup.parse(html.toString()); String data = doc.text(); System.out.println(data); Scanner sc1 = new Scanner(new String(data)); int wordCount=0; while(sc1.hasNext()) { sc1.next(); wordCount++; } sc1.close(); System.out.println(""); System.out.println("**********"); System.out.println("WordCount: "+wordCount); System.out.println("**********"); System.out.println("");我正在寻找一些最佳解决方案。
1 回答
慕村225694
TA贡献1880条经验 获得超4个赞
你说,“在某些情况下它是成功的,但不是全部”。所以我建议在计数之前删除文本中的标点符号。
int wordCount = Jsoup.parse(html).text().replaceAll("\\p{Punct}", "").split("\\s+").length;
添加回答
举报
0/150
提交
取消