为了账号安全,请及时绑定邮箱和手机立即绑定

我该如何词干或词法去除?

我该如何词干或词法去除?

撒科打诨 2019-12-09 09:26:50
我已经尝试过PorterStemmer和Snowball,但都无法使用所有单词,缺少一些非常常见的单词。我的测试词是:“ 猫跑了仙人掌仙人掌社区仙人掌 ”,并且两人都获得了不到一半的权利。
查看完整描述

3 回答

?
湖上湖

TA贡献2003条经验 获得超2个赞

我使用斯坦福大学nlp进行词条还原。最近几天,我一直在遇到类似的问题。感谢stackoverflow帮助我解决问题。


import java.util.*; 

import edu.stanford.nlp.pipeline.*;

import edu.stanford.nlp.ling.*; 

import edu.stanford.nlp.ling.CoreAnnotations.*;  


public class example

{

    public static void main(String[] args)

    {

        Properties props = new Properties(); 

        props.put("annotators", "tokenize, ssplit, pos, lemma"); 

        pipeline = new StanfordCoreNLP(props, false);

        String text = /* the string you want */; 

        Annotation document = pipeline.process(text);  


        for(CoreMap sentence: document.get(SentencesAnnotation.class))

        {    

            for(CoreLabel token: sentence.get(TokensAnnotation.class))

            {       

                String word = token.get(TextAnnotation.class);      

                String lemma = token.get(LemmaAnnotation.class); 

                System.out.println("lemmatized version :" + lemma);

            }

        }

    }

}

如果停用词稍后在分类器中使用,则最好使用停用词来最小化输出引理。请看一下John Conwell编写的coreNlp扩展。


查看完整回答
反对 回复 2019-12-09
?
慕姐4208626

TA贡献1852条经验 获得超7个赞

我在这个雪球演示网站上尝试了您的术语列表,结果看起来还不错。...


猫->猫

运行->运行

跑->跑

仙人掌->仙人掌

仙人掌->仙人掌

社区->社区

社区->社区

词干被认为可以将词的变形形式转化为某些共同的词根。使该词根成为“适当的”字典词并不是真正的工作。为此,您需要查看形态/正交分析仪。


我认为这个问题或多或少是同一件事,而Kaarel对这个问题的回答是我从第二个链接中获得的。


查看完整回答
反对 回复 2019-12-09
  • 3 回答
  • 0 关注
  • 475 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信