问题我有一个 pandas 数据框,我需要计算数据框中每个唯一条目出现在每个其他条目的同一行中的行数。可重复的设置import pandas as pd
import numpy as np数据框:df = pd.DataFrame({'a': ['A', 'A', 'B', 'B'], 'b': ['B', 'C', 'B', 'B'], 'c': ['C', 'A', 'C', 'A'], 'd': ['B', 'D', 'B', 'A']}, index=[0, 1, 2, 3])IE:+----+-----+-----+-----+-----+| | a | b | c | d ||----+-----+-----+-----+-----|| 0 | A | B | C | B || 1 | A | C | A | D || 2 | B | B | C | B || 3 | B | B | A | A |+----+-----+-----+-----+-----+我尝试过的我尝试使用answer 中的代码,& 替换这些变量:document = [list(each) for each in df.values]names = list(np.unique(df.values))它给出了错误的结果: A B C DA 4 6 3 2B 6 10 5 0C 3 5 0 1D 2 0 1 0它是基于迭代的,所以我希望有更好的解决方案。预期输出+----+-----+-----+-----+-----+| | A | B | C | D ||----+-----+-----+-----+-----|| A | nan | 2 | 2 | 1 || B | 2 | nan | 2 | 0 || C | 2 | 2 | nan | 1 || D | 1 | 0 | 1 | nan |+----+-----+-----+-----+-----+有些2行同时出现A& B,因此单元格A行列中的B值为2。有些2行同时出现A& C,因此单元格A行列中的C值为2。问题如何在 Pandas 中轻松获得行共现矩阵?如果我不必循环遍历这些值,那就太好了。
1 回答
守着星空守着你
TA贡献1799条经验 获得超8个赞
我们可以做stack然后get_dummies有价值dot
s=df.stack().str.get_dummies().sum(level=0).ne(0).astype(int)
s=s.T.dot(s).astype(float)
np.fill_diagonal(s.values, np.nan)
s
Out[33]:
A B C D
A NaN 2.0 2.0 1.0
B 2.0 NaN 2.0 0.0
C 2.0 2.0 NaN 1.0
D 1.0 0.0 1.0 NaN
添加回答
举报
0/150
提交
取消