1 回答
TA贡献1856条经验 获得超11个赞
我会避免使用https://github.com/jhlau/doc2vec上已有 4 年历史的非标准 gensim 分支,或任何仅加载此类代码的已有 4 年历史的已保存模型。
那里的维基百科 DBOW 模型也小得令人怀疑,只有 1.4GB。即使在 4 年前,维基百科也有超过 400 万篇文章,而一个 300 维的Doc2Vec
模型经过训练以拥有 400 万篇文章的文档向量,其大小至少4000000 articles * 300 dimensions * 4 bytes/dimension
= 4.8GB,甚至不包括模型的其他部分。(因此,该下载显然不是相关论文中提到的 4.3M 文档、300 维模型——而是以其他不明确的方式被截断的内容。)
当前的 gensim 版本是 3.8.3,几周前发布。
使用当前代码和当前维基百科转储构建您自己的Doc2Vec
模型可能需要一些修补,以及一整夜或更长时间的运行时间——但随后您将使用现代支持的代码,以及更好地理解单词的现代模型在过去 4 年中投入使用。(而且,如果你在你感兴趣的文档类型的语料库上训练模型——比如学术文章——词汇、词义和与你自己的文本预处理的匹配将用于以后推断的文档一切都会更好。)
有一个从维基百科构建模型的 Jupyter notebook 示例,该模型在源代码树中Doc2Vec
具有功能性或非常接近功能性:gensim
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb
添加回答
举报