为了账号安全,请及时绑定邮箱和手机立即绑定

在pyton 2.7中计算TF-IDF(用三行代码)。这段代码有效吗?

在pyton 2.7中计算TF-IDF(用三行代码)。这段代码有效吗?

红颜莎娜 2023-07-18 16:54:43
我正在尝试计算大约 7000 个文档的语料库的 tfidf 值。在互联网上搜索,我找到了很多示例(当我尝试为每个文档创建唯一词矩阵时,其中许多示例被锁定)。唯一有效的似乎是下面的代码from sklearn.feature_extraction.text import TfidfVectorizerimport pandas as pdtfidf = TfidfVectorizer()x = tfidf.fit_transform(corpus)df_tfidf = pd.DataFrame(x.toarray(), columns=tfidf.get_feature_names())print(df_tfidf)假设以下语料库corpus = [ 'This is the first document.', 'This document is the second document.', 'And this is the third one.', 'Is this the first document?']它产生了这样的输出:这段代码也适用于我的情况,事实上它生成了一个包含 7180 行和 10390 列的矩阵。但我不确定这是否正确。您认为,这是计算一组文档的 tfidf 的有效解决方案吗?ps:我可以插入我关注的指南链接吗?
查看完整描述

1 回答

?
慕田峪7331174

TA贡献1828条经验 获得超13个赞

是的,这是计算 tf-idf 矩阵的正确方法。

您正在使用

x = tfidf.fit_transform(corpus)

它首先适合您的TfidfVectorizer语料库,然后相应地转换语料库,这样您就可以得到 tf-idf 矩阵作为x


查看完整回答
反对 回复 2023-07-18
  • 1 回答
  • 0 关注
  • 94 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信