3 回答
TA贡献2003条经验 获得超2个赞
我使用斯坦福大学nlp进行词条还原。最近几天,我一直在遇到类似的问题。感谢stackoverflow帮助我解决问题。
import java.util.*;
import edu.stanford.nlp.pipeline.*;
import edu.stanford.nlp.ling.*;
import edu.stanford.nlp.ling.CoreAnnotations.*;
public class example
{
public static void main(String[] args)
{
Properties props = new Properties();
props.put("annotators", "tokenize, ssplit, pos, lemma");
pipeline = new StanfordCoreNLP(props, false);
String text = /* the string you want */;
Annotation document = pipeline.process(text);
for(CoreMap sentence: document.get(SentencesAnnotation.class))
{
for(CoreLabel token: sentence.get(TokensAnnotation.class))
{
String word = token.get(TextAnnotation.class);
String lemma = token.get(LemmaAnnotation.class);
System.out.println("lemmatized version :" + lemma);
}
}
}
}
如果停用词稍后在分类器中使用,则最好使用停用词来最小化输出引理。请看一下John Conwell编写的coreNlp扩展。
TA贡献1852条经验 获得超7个赞
我在这个雪球演示网站上尝试了您的术语列表,结果看起来还不错。...
猫->猫
运行->运行
跑->跑
仙人掌->仙人掌
仙人掌->仙人掌
社区->社区
社区->社区
词干被认为可以将词的变形形式转化为某些共同的词根。使该词根成为“适当的”字典词并不是真正的工作。为此,您需要查看形态/正交分析仪。
我认为这个问题或多或少是同一件事,而Kaarel对这个问题的回答是我从第二个链接中获得的。
- 3 回答
- 0 关注
- 475 浏览
添加回答
举报