比较组组内的 ID - 我的分组或循环有什么问题？

我想比较数据集中的时间间隔（5 秒）并将条件格式应用于另一组表，以便将 IDs 分类为组大小。我的代码如下所示：mindist = 100maxdist = 200grouped1 = result1.groupby(pd.TimeGrouper(key='date', freq="5S"))group = []for i, groups1 in grouped1: for g, tables1 in groups1.groupby('table'): for d1,d2 in zip(tables1.nnDist1,tables1.nnDist2): if tables1.id.nunique() > 2 and d1 < mindist and d2 < maxdist: group.append(2) elif tables1.id.nunique() == 2 and d1 < mindist and d2 > maxdist: group.append(1) elif tables1.id.nunique() < 2: group.append(0) else: group.append(9)result1['gs_pred'] = group它基本上做我想做的。将数据集分成5秒的时间束，进一步分组成表，比较每张表是否有超过1个唯一ID，并根据距离，将它们分为0=单独，1=成对，2=组.我的问题是，有时即使满足条件，它也会错误地对我的数据进行分类。例如组“表 5”：id nnDist1 nnDist2 table zone pred_gs date3479.0 55.06369039574004 68.07613385026653 Table5 Zone2 0 2019-10-09 15:30:41.4313477.0 55.06369039574004 99.14655818534048 Table5 Zone2 0 2019-10-09 15:30:41.4313476.0 38.02749005658375 80.28754573408989 Table5 Zone2 2 2019-10-09 15:30:41.4313473.0 38.02749005658375 68.07613385026653 Table5 Zone2 2 2019-10-09 15:30:41.4313473.0 38.07413820430603 70.09457896299827 Table5 Zone2 2 2019-10-09 15:30:43.8313479.0 53.91660226686884 70.09457896299827 Table5 Zone2 2 2019-10-09 15:30:43.8313477.0 53.91660226686884 100.09240730444223 Table5 Zone2 2 2019-10-09 15:30:43.8313476.0 38.07413820430603 80.2626314046803 Table5 Zone2 2 2019-10-09 15:30:43.831即使 ID 3479 和 3477 与其他 ID 在同一组中，并且距离低于阈值，为什么它会将这些 ID 分类为 0=独坐？我希望有人有想法吗？我的分组在这里做错了什么？非常感谢您的帮助！

查看完整描述

1 回答

倚天杖

TA贡献1828条经验获得超3个赞

groupby避免在运行时出现循环解决方案，sort=True但您可以按原始数据帧的顺序进行分配。此外，您正在迭代地检查标量值，而不是通过向量化的系列。

相反，请考虑groupby().apply()使用np.selectornp.where有条件地分配gs_pred列的方法。使用这种方法，您可以保持所有组和基础值不变：

def calc_groups(g):

# LOGICAL CONDITIONS

cond1 = (g['id'].nunique() > 2) & (g['nnDist1'] < mindist) & (g['nnDist2'] < maxdist)

cond2 = (g['id'].nunique() == 2) & (g['nnDist1'] < mindist) & (g['nnDist2'] > maxdist)

cond3 = (g['id'].nunique() < 2)

# NUMPY SELECT APPROACH

g['gs_pred2'] = np.select([cond1, cond2, cond3], [2, 1, 0], default=9)

# NUMPY WHERE APPROACH

g['gs_pred3'] = np.where(cond1, 2,

np.where(cond2, 1,

np.where(cond3, 0, 9)

)

return g

# RUN ASSIGNMENT BY GROUP(S)

result1 = (result1.groupby([pd.Grouper(key='date', freq="5S"), 'table'], as_index=False)

.apply(calc_groups))

反对回复 2022-11-29

热搜

最近搜索清空

比较组组内的 ID - 我的分组或循环有什么问题？

比较组组内的 ID - 我的分组或循环有什么问题？

1 回答

添加回答