1 回答
TA贡献1802条经验 获得超4个赞
实现此目的的一种方法是将分类变量转换为虚拟变量,然后计算每个变量的相关性:
dummies = pd.get_dummies(x)
从那里可以轻松计算您喜欢的任何组合之间的相关性:
>>> dummies.corr()
Salary Dept_Finance Dept_HR Dept_IT Approve_No Approve_Yes
Salary 1.000000 0.134865 -0.175072 0.030895 -0.047193 0.047193
Dept_Finance 0.134865 1.000000 -0.534522 -0.534522 0.816497 -0.816497
Dept_HR -0.175072 -0.534522 1.000000 -0.428571 -0.654654 0.654654
Dept_IT 0.030895 -0.534522 -0.428571 1.000000 -0.218218 0.218218
Approve_No -0.047193 0.816497 -0.654654 -0.218218 1.000000 -1.000000
Approve_Yes 0.047193 -0.816497 0.654654 0.218218 -1.000000 1.000000
或者一个子集:
>>> dummies[['Salary', 'Dept_HR']].corr()
Salary Dept_HR
Salary 1.000000 -0.175072
Dept_HR -0.175072 1.000000
添加回答
举报