为了账号安全,请及时绑定邮箱和手机立即绑定

如何操作熊猫中的行块

如何操作熊猫中的行块

慕哥6287543 2021-08-14 19:26:50
我有一个大数据库(2.4 亿行),分为多个块,块开始标记(sob)作为列之一,130 万个块。我创建了一个 block_start 系列:block_start = pd.series(df[df.sob == True].index)并计算块长度系列:block_len = block_start.shift(-1) - block_start.现在我需要在布尔列中查找每个块是否包含至少一个信号(真):signals = []for i in range(len(block_start)): signals.append(df.signal[block_start[i]:block_start[i]+block_len[i]].any())上述循环需要 20 分钟。任何想法如何缩短它?
查看完整描述

2 回答

?
守候你守候我

TA贡献1802条经验 获得超10个赞

groupby+ cumsum+any

您可以groupby计算sob系列的累计总和:


df = pd.DataFrame({'signal': [True, False, True, False, False,

                              False, True, False, False, False],

                   'sob': [True, False, False, False, True,

                           False, False, True, False, False]})


df['any_flag'] = df.groupby(df['sob'].cumsum())['signal'].transform('any')


print(df)


   signal    sob  any_flag

0    True   True      True

1   False  False      True

2    True  False      True

3   False  False      True

4   False   True      True

5   False  False      True

6    True  False      True

7   False   True     False

8   False  False     False

9   False  False     False


查看完整回答
反对 回复 2021-08-14
  • 2 回答
  • 0 关注
  • 143 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号