为了账号安全,请及时绑定邮箱和手机立即绑定

如何连接在某一范围内的列值的两个数据格式?

如何连接在某一范围内的列值的两个数据格式?

慕村225694 2019-07-08 12:33:27
如何连接在某一范围内的列值的两个数据格式?给定两个数据df_1和df_2,如何加入其中的datetime列。df_1在两者之间start和end以数据为单位df_2:print df_1  timestamp              A          B0 2016-05-14 10:54:33    0.020228   0.0265721 2016-05-14 10:54:34    0.057780   0.1754992 2016-05-14 10:54:35    0.098808   0.6209863 2016-05-14 10:54:36    0.158789   1.0148194 2016-05-14 10:54:39    0.038129   2.384590print df_2  start                end                  event    0 2016-05-14 10:54:31  2016-05-14 10:54:33  E11 2016-05-14 10:54:34  2016-05-14 10:54:37  E22 2016-05-14 10:54:38  2016-05-14 10:54:42  E3得到相应的event哪里df1.timestamp介于df_2.start和df2.end  timestamp              A          B          event0 2016-05-14 10:54:33    0.020228   0.026572   E11 2016-05-14 10:54:34    0.057780   0.175499   E22 2016-05-14 10:54:35    0.098808   0.620986   E23 2016-05-14 10:54:36    0.158789   1.014819   E24 2016-05-14 10:54:39    0.038129   2.384590   E3
查看完整描述

3 回答

?
慕码人2483693

TA贡献1860条经验 获得超9个赞

一个简单的解决方案是创建interval index从…start and end设置closed = both然后使用get_loc要获得事件,例如(希望所有的日期时间都是时间戳dtype)

df_2.index = pd.IntervalIndex.from_arrays(df_2['start'],df_2['end'],closed='both')df_1['event'] = df_1['timestamp'].
apply(lambda x : df_2.iloc[df_2.index.get_loc(x)]['event'])

产出:

            timestamp         A         B event
0 2016-05-14 10:54:33  0.020228  0.026572    E1
1 2016-05-14 10:54:34  0.057780  0.175499    E2
2 2016-05-14 10:54:35  0.098808  0.620986    E2
3 2016-05-14 10:54:36  0.158789  1.014819    E2
4 2016-05-14 10:54:39  0.038129  2.384590    E3


查看完整回答
反对 回复 2019-07-08
?
慕慕森

TA贡献1856条经验 获得超17个赞

idx = pd.IntervalIndex.from_arrays(df_2['start'], df_2['end'], closed='both')

event = df_2.loc[idx.get_indexer(df_1.timestamp), 'event']


event

0    E1

1    E2

1    E2

1    E2

2    E3

Name: event, dtype: object


df_1['event'] = event.values

df_1

            timestamp         A         B event

0 2016-05-14 10:54:33  0.020228  0.026572    E1

1 2016-05-14 10:54:34  0.057780  0.175499    E2

2 2016-05-14 10:54:35  0.098808  0.620986    E2

3 2016-05-14 10:54:36  0.158789  1.014819    E2

4 2016-05-14 10:54:39  0.038129  2.384590    E3

参考资料:关于.的问题IntervalIndex.get_indexer.


查看完整回答
反对 回复 2019-07-08
?
慕哥9229398

TA贡献1877条经验 获得超6个赞

备选案文1


idx = pd.IntervalIndex.from_arrays(df_2['start'], df_2['end'], closed='both')

df_2.index=idx

df_1['event']=df_2.loc[df_1.timestamp,'event'].values

备选案文2


df_2['timestamp']=df_2['end']

pd.merge_asof(df_1,df_2[['timestamp','event']],on='timestamp',direction ='forward',allow_exact_matches =True)

Out[405]: 

            timestamp         A         B event

0 2016-05-14 10:54:33  0.020228  0.026572    E1

1 2016-05-14 10:54:34  0.057780  0.175499    E2

2 2016-05-14 10:54:35  0.098808  0.620986    E2

3 2016-05-14 10:54:36  0.158789  1.014819    E2

4 2016-05-14 10:54:39  0.038129  2.384590    E3


查看完整回答
反对 回复 2019-07-08
  • 3 回答
  • 0 关注
  • 443 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信