为了账号安全,请及时绑定邮箱和手机立即绑定

java实现关于文章相似度问题

java实现关于文章相似度问题

叮当猫咪 2018-07-24 11:18:39
CMS项目数据量大多超10w,有的数据量达到100w以上!这种大数据量的情况下如何实现计算每篇文章跟剩余文章的相似度?求大神指教下!之前的做法是先把所有数据从数据库查出来,放在List里边,然后遍历循环跟剩余的对比,尴尬的是数据量一大直接卡死
查看完整描述

2 回答

?
梵蒂冈之花

TA贡献1900条经验 获得超5个赞

你这应该使用算法或文本分析工具,比如使用Ansj分词工具等等,这样效率会很高,上传的文档可以离线比对后保存相似结果,查询时直接查询结果这不就快了


查看完整回答
反对 回复 2018-08-10
?
喵喔喔

TA贡献1735条经验 获得超5个赞

有文本相似度计算的方法。使用数据挖掘的相关概念实现文本相似度计算


查看完整回答
反对 回复 2018-08-10
  • 2 回答
  • 0 关注
  • 1014 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信