从大型语料库中提取词频列表

我有一个名为SubIMDB的大型英语语料库，我想列出所有单词及其频率。意思是它们在整个语料库中出现了多少。这个频率列表应该有一些特点：像男孩和男孩这样的词或其他语法特征，例如 get 和 getting，相同的词或词条，如果有 3 个男孩和 2 个男孩，则应将它们列为男孩 5。但是，对于像 Go 和 Went 这样有不规则形式（或脚和脚）我想使用这个频率列表作为一种字典，所以每当我在程序的另一部分看到一个词时，我想检查它在这个列表中的频率。因此，最好是无需查找所有内容即可搜索。我的问题是：对于第一个问题，我该怎么办？词形还原？还是词干？或者我怎样才能得到它？其次，我应该将它设置为什么样的变量类型？像字典或列表或什么？最好将它保存在csv中吗？是否有任何准备好的 Python 工具包来完成这一切？非常感谢。

查看完整描述