如何计算两个文本文档之间的相似度?我正在寻找一个NLP项目,使用任何编程语言(虽然Python将是我的偏好)。我想拿两份文件,确定它们有多相似。
3 回答
茅侃侃
TA贡献1842条经验 获得超21个赞
这是一个老问题,但我发现这可以通过Spacy轻松完成。一旦读取文档,similarity
就可以使用简单的api 来找到文档向量之间的余弦相似度。
import spacy
nlp = spacy.load('en')
doc1 = nlp(u'Hello hi there!')
doc2 = nlp(u'Hello hi there!')
doc3 = nlp(u'Hey whatsup?')
print doc1.similarity(doc2) # 0.999999954642
print doc2.similarity(doc3) # 0.699032527716
print doc1.similarity(doc3) # 0.699032527716
添加回答
举报
0/150
提交
取消