为了账号安全,请及时绑定邮箱和手机立即绑定

Dask Series 或 DataFrame 列上的 SQL 样式爆炸

Dask Series 或 DataFrame 列上的 SQL 样式爆炸

慕码人8056858 2021-07-26 16:06:24
我有一个 Dask 系列,其中包含一个带有值列表的列。我想执行 SQL 样式的爆炸,为每个索引值和相应的列表元素创建一个新行。对于这个特定问题,列表的长度都相同。单行示例:索引          列123 [value1, value2, value3]期望的转变:索引          列123 value1123 value2123 value3任何关于如何实现这一目标的建议将不胜感激。
查看完整描述

1 回答

?
精慕HU

TA贡献1845条经验 获得超8个赞

在熊猫数据框上,这看起来像


df.column.apply(pd.Series, 1).stack().reset_index(level=1, drop=True)

要对 Dask 数据帧执行此操作,您需要使用map_partitions对数据的每个分区执行完全相同的操作:


def func(df):

    return df.column.apply(pd.Series, 1).stack().reset_index(level=1, drop=True)

df.map_partitions(func)


查看完整回答
反对 回复 2021-08-03
  • 1 回答
  • 0 关注
  • 97 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信