为了账号安全,请及时绑定邮箱和手机立即绑定

如何在python的决策树中使用分类数据

如何在python的决策树中使用分类数据

慕姐4208626 2021-07-29 13:04:04
我有一个数据集,我从中提取了 12 个特征,用于使用决策树的共指解析任务。这些功能的一些示例是:distance_feature(): i 和 j 之间根据句子数的距离。输出:0 或 1Ispronoun_feature():如果名词短语是代词,则此功能设置为 true。appositive_feature():此功能检查是否j与 并列i。创建所有这些特征以从数据集中提取结果后,我不知道如何选择根节点或如何使用 sci-kit 学习决策树算法,因为数据不是结构化的并且是分类的。我读过的一篇论文提到了熵和信息增益,但这两个属性的所有示例都基于结构化数据集。
查看完整描述

2 回答

?
吃鸡游戏

TA贡献1829条经验 获得超7个赞

如果您有不同类别的不同功能,并且不想花时间自己编码,我建议使用CatBoost框架,它也比树的标准 scikit 实现更快。

检查这个kaggle的实现!


查看完整回答
反对 回复 2021-08-03
?
皈依舞

TA贡献1851条经验 获得超3个赞

使用 one-hot 编码。

df = pd.get_dummies(df, [categorical_columns_you_want_to_encode])

如果最终有太多列,您可以预处理您的列以删除不常见的值 - 例如小于 1% 以避免有太多列。


查看完整回答
反对 回复 2021-08-03
  • 2 回答
  • 0 关注
  • 159 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信