我有一个自由文本医学叙述语料库,我将用它来进行分类任务,现在大约有 4200 条记录。首先,我希望使用 w2v 创建词嵌入,但我有一个关于此任务的训练测试拆分的问题。当我训练 w2v 模型时,是否适合使用所有数据来创建模型?还是我应该只使用训练数据来创建模型?真的,我的问题归结为:我是获取整个数据集,创建 w2v 模型,用模型转换叙述,然后拆分,还是应该拆分,创建 w2v,然后独立地转换两个集合?谢谢!编辑我在我的工作地点发现了一个由供应商建造的内部项目;他们创建拆分,并仅在训练数据上创建 w2v 模型,然后在不同的工作中独立转换两组;所以这是我上面指定的两个选项中的后者。这就是我认为的情况,因为我不想在任何测试数据上污染 w2v 模型。
1 回答
梵蒂冈之花
TA贡献1900条经验 获得超5个赞
NLP 中大多数此类问题的答案是“同时尝试”:-)
测试与训练数据的污染不相关,也不是生成词向量的问题。这是您使用向量的模型中的一个相关问题。在我的用例中,我发现整个语料库向量的性能更好。
词向量的质量随着更多的数据而提高。如果您不使用测试语料库,则需要有一种方法来初始化词汇外向量并了解它们可能对您的模型性能产生的影响。
添加回答
举报
0/150
提交
取消