为了账号安全,请及时绑定邮箱和手机立即绑定

在pyspark GroupedData中返回具有最佳字段的行

在pyspark GroupedData中返回具有最佳字段的行

冉冉说 2021-04-26 16:18:27
我正在尝试将一个GroupedData对象聚合成Row具有最佳属性(不是None或最高timestamp)的对象,Dataframe例如:╔═══════╦═══════════╦════════╦════════╦════════╗║ group ║ timestamp ║ value1 ║ value2 ║ value3 ║╠═══════╬═══════════╬════════╬════════╬════════╣║ a     ║       111 ║ None   ║ None   ║ None   ║║ a     ║       222 ║ a      ║ None   ║ None   ║║ a     ║       333 ║ b      ║ 1      ║ 1.1    ║║ a     ║       444 ║ None   ║ None   ║ 2.2    ║║ b     ║       111 ║ c      ║ None   ║ 3.3    ║╚═══════╩═══════════╩════════╩════════╩════════╝我想要一个Dataframe类似的结果:╔═══════╦═══════════╦════════╦════════╦════════╗║ group ║ timestamp ║ value1 ║ value2 ║ value3 ║╠═══════╬═══════════╬════════╬════════╬════════╣║ a     ║       444 ║ b      ║ 1      ║ 2.2    ║║ b     ║       111 ║ c      ║ None   ║ 3.3    ║╚═══════╩═══════════╩════════╩════════╩════════╝理想情况下,我想创建一个不同的逻辑来汇总每一列。例如min对于timestamp而是max对value3。这可能在Dataframes吗?
查看完整描述

2 回答

  • 2 回答
  • 0 关注
  • 155 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号