为了账号安全,请及时绑定邮箱和手机立即绑定

TfidfVectorizer 的替代品

TfidfVectorizer 的替代品

拉丁的传说 2022-12-20 12:07:15
除了模块的TfidfVectorizer功能还有其他选择吗?sklearn.feature_extraction.text我听说过 fastText 和 GloVe,但找不到如何使用它来矢量化文本的很好的解释。编辑:基本上我有一个叫做旁白的功能,它由英文句子组成。为了将其输入到任何 ML 算法中,我必须将其转换为数字矩阵表示。TfIdf 是一种方式。还有其他方法可以尝试吗?(可能在也可能不在 sklearn 下)
查看完整描述

1 回答

?
翻翻过去那场雪

TA贡献2065条经验 获得超14个赞

您正在寻找的是所谓的文本嵌入,例如参见this。本质上,对于您的叙述功能,您希望将序列转换为向量,因此是 seq_to_vec。TfIdf 只是执行此操作的最简单方法之一,它会产生稀疏(更多的组件 =0,而不是)。我建议你在这里寻找一个好的起点。



查看完整回答
反对 回复 2022-12-20
  • 1 回答
  • 0 关注
  • 121 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信