为了账号安全,请及时绑定邮箱和手机立即绑定

Java 读取txt格式语料库并匹配指定字符串,如何可以快速完成?

Java 读取txt格式语料库并匹配指定字符串,如何可以快速完成?

慕工程0101907 2019-03-13 14:15:44
有一个9M多行的语料库,文件大小4G。现在需要匹配指定动词,符合句子条件的输出。但是文件过大。每次读取一行。匹配下来要好久。请问有没有什么方法可以加快处理速度。BufferedReader cpreader = new BufferedReader(new InputStreamReader(new FileInputStream(this.getCorpusPath())));tring line = cpreader.readLine();while(line != null)            {                ArrayList<String> verbList = new ArrayList();                matcher_line = Pattern.compile("(.*\\%\\&\\$cook\\%\\&\\$VB.*)").matcher(line);                if(matcher_line.find())                {                    System.out.println(line);                }                                                                line = cpreader.readLine();            }
查看完整描述

5 回答

?
三国纷争

TA贡献1804条经验 获得超7个赞

读文件的话应该是没有问题的,不过你可以尝试改为缓冲式读取,因为一行的大小 可能是不确定的,会对效率造成影响吧。。
匹配的话如果是单个单词的话,可以改用更好的匹配方法,正则的话就不晓得了

查看完整回答
反对 回复 2019-04-18
?
明月笑刀无情

TA贡献1828条经验 获得超4个赞

nio+多线程


查看完整回答
反对 回复 2019-04-18
?
浮云间

TA贡献1829条经验 获得超4个赞

Pattern.compile("(.*\\%\\&\\$cook\\%\\&\\$VB.*)")

这个在循环里边,每次都要编译正则,所以很慢,你把这个放到while外边看看


查看完整回答
反对 回复 2019-04-18
?
杨魅力

TA贡献1811条经验 获得超6个赞

AC自动机,构造的树大小应该不到4G,普通的笔记本都应该够了


查看完整回答
反对 回复 2019-04-18
  • 5 回答
  • 0 关注
  • 754 浏览

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号