为了账号安全,请及时绑定邮箱和手机立即绑定

怎么对词库中的词语进行高效的编码?

怎么对词库中的词语进行高效的编码?

偶然的你 2019-03-11 20:30:22
自己现在有两种方案,一种是直接用数进行增长// let weight=//     {//         '美国': 10,//         '军区': 5,//         '雇员': 7,//         '灰色': 4,//         '外星人': 7,//         'ufo': 3,//     }另一种是将字符用utf8的方式进行解析出来。let str='国'function hash(str){    let strcode=0     for (const iterator of str)      {         strcode += iterator.codePointAt(0).toString(2)     }    return strcode }console.log(hash(str))//0101011011111101但是两者的的编码仍然不能缩小数据量。计算这个是为了后面能够进行,文本相似度的计算。谢谢。
查看完整描述

2 回答

?
一只斗牛犬

TA贡献1784条经验 获得超2个赞

编码当然不能缩小数据量,压缩才可以减小数据量。

查看完整回答
反对 回复 2019-03-11
?
慕无忌1623718

TA贡献1744条经验 获得超4个赞

计算相似度前的向量化文本除了词袋模型还可以使用TF-IDF, LSI等模型

查看完整回答
反对 回复 2019-03-11
  • 2 回答
  • 0 关注
  • 604 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信