我有一个困境,我正在使用一种热编码,我需要进行特征选择(对于分类和数字特征),我有一些并不真正重要的特征,但我不想使用某种算法来做到这一点,而不是手动。我的问题有两个 -我可以使用什么特征选择技术来做到这一点?我是在一次热编码之后还是之前进行的?
1 回答
ABOUTYOU
TA贡献1812条经验 获得超5个赞
如果您有许多特征,并且其中许多可能与模型无关,则特征选择将使您能够丢弃它们并将数据集限制为最相关的特征。
以下是在这些情况下需要考虑的几个关键方面:
维数诅咒
当您处理大型数据集时,这通常是至关重要的一步。例如,盲目地对所有分类特征进行单热编码可能会导致大量数据帧,甚至可能无法存储到内存中,更不用说用于机器学习模型了。在这种情况下,您可能需要减少要编码的功能数量或研究其他分类编码器,例如贝叶斯编码器(请参阅答案的最后一部分)。
特征重要性
不进行特征选择的一个负面影响,在这里非常雄辩地提出,可能是我们有许多高度相关的特征,并且在分析特征重要性时,您获得的这些特征的重要性可能并不表明它们的实际相关性。
回答问题的第二部分,如果您拥有的功能可能是相关的并且您已经完成了一些功能工程,那么您可以对它们进行编码,如果您最终拥有许多功能,那么您可以执行功能选择并减少功能的维度生成的数据集。有许多特征选择技术。您可以在特征选择中找到 scikit-learn 中可用的列表。
添加回答
举报
0/150
提交
取消