我有一个看起来像这样的数据框 TaskID Status Time 0 123 Progress 12.001 234 Progress 12.102 123 Almost Done 12.203 234 Completed 12.40我需要使用最新记录更新记录的状态而不更改其他列的值并删除最新的重复记录。最后结果 TaskID Status Time 0 123 Almost Done 12.001 234 Completed 12.10我怎样才能做到这一点?谢谢。
1 回答
繁星淼淼
TA贡献1775条经验 获得超11个赞
我相信您需要agg使用first和 聚合last:
df = df.groupby('TaskID', as_index=False).agg({'Status':'last','Time':'first'})
print (df)
TaskID Status Time
0 123 Almost Done 12.0
1 234 Completed 12.1
添加回答
举报
0/150
提交
取消