我有一个数据集,我从中提取了 12 个特征,用于使用决策树的共指解析任务。这些功能的一些示例是:distance_feature(): i 和 j 之间根据句子数的距离。输出:0 或 1Ispronoun_feature():如果名词短语是代词,则此功能设置为 true。appositive_feature():此功能检查是否j与 并列i。创建所有这些特征以从数据集中提取结果后,我不知道如何选择根节点或如何使用 sci-kit 学习决策树算法,因为数据不是结构化的并且是分类的。我读过的一篇论文提到了熵和信息增益,但这两个属性的所有示例都基于结构化数据集。
添加回答
举报
0/150
提交
取消