为了账号安全,请及时绑定邮箱和手机立即绑定

通过从右表中采样来填充左连接的 NaN 值

通过从右表中采样来填充左连接的 NaN 值

元芳怎么了 2021-08-14 17:01:10
我无法找到一种很好的熊猫式方法来通过从右表中采样来填充左连接缺失的 NaN 值。例如joined_left = left.merge(right, how="left", left_on=[attr1], right_on=[attr2]) 从左到右   0  1  20  1  1  11  2  2  22  3  3  33  9  9  94  1  3  2   0  1  20  1  2  21  1  2  32  3  2  23  3  2  94  3  2  2产生像   0  1_x  2_x  1_y  2_y0  1    1    1  2.0  2.01  1    1    1  2.0  3.02  2    2    2  NaN  NaN3  3    3    3  2.0  2.04  3    3    3  2.0  9.05  3    3    3  2.0  2.06  9    9    9  NaN  NaN7  1    3    2  2.0  2.08  1    3    2  2.0  3.0如何从右表中采样一行而不是填充 NaN?这是我到目前为止尝试过的操场:left = [[1,1,1], [2,2,2],[3,3,3], [9,9,9], [1,3,2]]right = [[1,2,2],[1,2,3],[3,2,2], [3,2,9], [3,2,2]]left = np.asarray(left)right = np.asarray(right)left = pd.DataFrame(left)right = pd.DataFrame(right)joined_left = left.merge(right, how="left", left_on=[0], right_on=[0])while(joined_left.isnull().values.any()):    right_sample = right.sample().drop(0, axis=1)    joined_left.fillna(value=right_sample, limit=1)print joined_left基本上随机采样并使用 fillna() 首次出现 NaN 值来填充......但由于某种原因我没有得到任何输出。谢谢!输出之一可能是   0  1_x  2_x  1_y  2_y0  1    1    1  2.0  2.01  1    1    1  2.0  3.02  2    2    2  2.0  2.03  3    3    3  2.0  2.04  3    3    3  2.0  9.05  3    3    3  2.0  2.06  9    9    9  3.0  2.97  1    3    2  2.0  2.08  1    3    2  2.0  3.0与采样3  2  2和3  2  9
查看完整描述

1 回答

?
智慧大石

TA贡献1946条经验 获得超3个赞

使用sample与fillna


joined_left = left.merge(right, how="left", left_on=[0], right_on=[0],indicator=True) # adding indicator

joined_left

Out[705]: 

   0  1_x  2_x  1_y  2_y     _merge

0  1    1    1  2.0  2.0       both

1  1    1    1  2.0  3.0       both

2  2    2    2  NaN  NaN  left_only

3  3    3    3  2.0  2.0       both

4  3    3    3  2.0  9.0       both

5  3    3    3  2.0  2.0       both

6  9    9    9  NaN  NaN  left_only

7  1    3    2  2.0  2.0       both

8  1    3    2  2.0  3.0       both

nnull=joined_left['_merge'].eq('left_only').sum() # find all many row miss match , at the mergedf

s=right.sample(nnull)# rasmple from the dataframe after dropna 

s.index=joined_left.index[joined_left['_merge'].eq('left_only')] # reset the index of the subset fill df to the index of null value show up 

joined_left.fillna(s.rename(columns={1:'1_y',2:'2_y'})) 

Out[706]: 

   0  1_x  2_x  1_y  2_y     _merge

0  1    1    1  2.0  2.0       both

1  1    1    1  2.0  3.0       both

2  2    2    2  2.0  2.0  left_only

3  3    3    3  2.0  2.0       both

4  3    3    3  2.0  9.0       both

5  3    3    3  2.0  2.0       both

6  9    9    9  2.0  3.0  left_only

7  1    3    2  2.0  2.0       both

8  1    3    2  2.0  3.0       both


查看完整回答
反对 回复 2021-08-14
  • 1 回答
  • 0 关注
  • 138 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号