为了账号安全,请及时绑定邮箱和手机立即绑定

如何计算两个文本文档之间的相似度?

如何计算两个文本文档之间的相似度?

largeQ 2019-07-25 15:11:28
如何计算两个文本文档之间的相似度?我正在寻找一个NLP项目,使用任何编程语言(虽然Python将是我的偏好)。我想拿两份文件,确定它们有多相似。
查看完整描述

3 回答

?
茅侃侃

TA贡献1842条经验 获得超21个赞

这是一个老问题,但我发现这可以通过Spacy轻松完成。一旦读取文档,similarity就可以使用简单的api 来找到文档向量之间的余弦相似度。

import spacy

nlp = spacy.load('en')

doc1 = nlp(u'Hello hi there!')

doc2 = nlp(u'Hello hi there!')

doc3 = nlp(u'Hey whatsup?')


print doc1.similarity(doc2) # 0.999999954642

print doc2.similarity(doc3) # 0.699032527716

print doc1.similarity(doc3) # 0.699032527716


查看完整回答
反对 回复 2019-07-25
  • 3 回答
  • 0 关注
  • 1334 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信