-
词频-你文件频率(TF-IDF)
缺点:
词频(TF)和逆文件频率(IDF)的统计和计算都直接从语料统计得出,当增加语料的时候,TF和IDF往往需要重新计算,无法增量更新,每次添加语料,需要重新计算词频。
没有考虑特征词的位置因素对文本的区分度,词条出现在文档的不同位置时,对区分度贡献大小是不一样的。
按照传统TF-IDF,往往一些生僻词的IDF(反文档频率)会比较高、因此这些生僻词往往会被误认为是文档关键词。
查看全部 -
One-Hot缺点:
1.词通常很多,几十万个词,那就需要句子长度x几十万的矩阵才能表示这个句子
2.这种方法效率低下,矩阵包含很多零
3.无法表达相似性
4.新加一个词我们需要重新计算
查看全部 -
One-Hot理解:
先给句子分词,分词组从词表,词表有索引,然后编码形成矩阵
查看全部 -
文本表示方法:One-Hot、TF-IDF、Word2Vec
查看全部 -
缺点:
浪费空间,不利于计算
体现不出单词间的关系
优点:
长度远小于字典长度
向量加爵代表相似度
可以增量添加新词
查看全部 -
一个朴素的想法就是,我们把One-Hot中0的位置也利用起来,并且用浮点数来表示词特性,这样我们就可以用固定的,较小的维度来表达海量的信息
查看全部 -
IDF 是逆文件频率,表示关键词的普遍程度。
如果包含词条i的文档越少,IDF越大,则说明该词条具有很好的类别区分能力。
某一特定词语的IDF,可以由总文件数目除以包含该词语的文件数目,再将得到的商取对数得到。
查看全部 -
不懂的名词儿:
卷积
过拟合
loss
激活函数
embedding层
查看全部 -
试试笔记功能,调阈值
查看全部 -
老师,代码在哪里呀?4章 和5 章
查看全部 -
建模区别:
查看全部 -
查看全部
-
1111111
查看全部 -
22222
查看全部 -
github
查看全部 -
独热编码的缺点
查看全部 -
独热编码(one-hot)
查看全部 -
文本表示方法
查看全部 -
文本分类任务描述
查看全部 -
文本分类任务描述
查看全部 -
应用——知识点抽取
查看全部 -
应用-----非结构化信息提取
查看全部 -
应用--意图识别
查看全部 -
应用,情感分析
查看全部 -
文本分类任务描述
查看全部 -
我的笔记笔记笔记,自然期刊
查看全部 -
我的笔记笔记笔记,自然自然
查看全部 -
我的笔记笔记笔记,自然
查看全部
举报