为了账号安全,请及时绑定邮箱和手机立即绑定

我应该使用一种热编码的特征选择吗?

我应该使用一种热编码的特征选择吗?

慕勒3428872 2023-10-18 16:37:25
我有一个困境,我正在使用一种热编码,我需要进行特征选择(对于分类和数字特征),我有一些并不真正重要的特征,但我不想使用某种算法来做到这一点,而不是手动。我的问题有两个 -我可以使用什么特征选择技术来做到这一点?我是在一次热编码之后还是之前进行的?
查看完整描述

1 回答

?
ABOUTYOU

TA贡献1812条经验 获得超5个赞

如果您有许多特征,并且其中许多可能与模型无关,则特征选择将使您能够丢弃它们并将数据集限制为最相关的特征。

以下是在这些情况下需要考虑的几个关键方面:

  • 维数诅咒

当您处理大型数据集时,这通常是至关重要的一步。例如,盲目地对所有分类特征进行单热编码可能会导致大量数据帧,甚至可能无法存储到内存中,更不用说用于机器学习模型了。在这种情况下,您可能需要减少要编码的功能数量或研究其他分类编码器,例如贝叶斯编码器(请参阅答案的最后一部分)。

  • 特征重要性

不进行特征选择的一个负面影响,在这里非常雄辩地提出,可能是我们有许多高度相关的特征,并且在分析特征重要性时,您获得的这些特征的重要性可能并不表明它们的实际相关性

回答问题的第二部分,如果您拥有的功能可能是相关的并且您已经完成了一些功能工程,那么您可以对它们进行编码,如果您最终拥有许多功能,那么您可以执行功能选择并减少功能维度生成的数据集。有许多特征选择技术。您可以在特征选择中找到 scikit-learn 中可用的列表。



查看完整回答
反对 回复 2023-10-18
  • 1 回答
  • 0 关注
  • 110 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信