为了账号安全,请及时绑定邮箱和手机立即绑定

python 中分类的相关性

python 中分类的相关性

烙印99 2023-09-05 20:21:46
我有 Python 数据框 df它有多个列Salary  Dept      Approve1500    IT        Yes1200    Finance   No1200    IT        No1300    HR        Yes1800    Finance   No1100    Finance   No1600    Finance   No1500    IT        Yes1200    HR        Yes1500    HR        Yes我想找到薪资/批准和部门/批准之间的关系相关性不起作用,因为有些是分类而不是数字我还有什么其他选择?如何找到薪资/批准和部门/批准之间的相关性
查看完整描述

1 回答

?
慕虎7371278

TA贡献1802条经验 获得超4个赞

实现此目的的一种方法是将分类变量转换为虚拟变量,然后计算每个变量的相关性:


dummies = pd.get_dummies(x)

从那里可以轻松计算您喜欢的任何组合之间的相关性:


>>> dummies.corr()

                Salary  Dept_Finance   Dept_HR   Dept_IT  Approve_No  Approve_Yes

Salary        1.000000      0.134865 -0.175072  0.030895   -0.047193     0.047193

Dept_Finance  0.134865      1.000000 -0.534522 -0.534522    0.816497    -0.816497

Dept_HR      -0.175072     -0.534522  1.000000 -0.428571   -0.654654     0.654654

Dept_IT       0.030895     -0.534522 -0.428571  1.000000   -0.218218     0.218218

Approve_No   -0.047193      0.816497 -0.654654 -0.218218    1.000000    -1.000000

Approve_Yes   0.047193     -0.816497  0.654654  0.218218   -1.000000     1.000000

或者一个子集:


>>> dummies[['Salary', 'Dept_HR']].corr()

           Salary   Dept_HR

Salary   1.000000 -0.175072

Dept_HR -0.175072  1.000000


查看完整回答
反对 回复 2023-09-05
  • 1 回答
  • 0 关注
  • 80 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信