为了账号安全,请及时绑定邮箱和手机立即绑定

将Spark Dataframe字符串列拆分为多列

将Spark Dataframe字符串列拆分为多列

胡子哥哥 2019-11-29 14:18:18
我见过很多人建议Dataframe.explode这样做是一种有用的方法,但是它导致的行数比原始数据帧多,这根本不是我想要的。我只想做非常简单的Dataframe等效项:rdd.map(lambda row: row + [row.my_str_col.split('-')])它看起来像:col1 | my_str_col-----+-----------  18 |  856-yygrm 201 |  777-psgdg并将其转换为:col1 | my_str_col | _col3 | _col4-----+------------+-------+------  18 |  856-yygrm |   856 | yygrm 201 |  777-psgdg |   777 | psgdg我知道pyspark.sql.functions.split(),但是它导致嵌套的数组列,而不是像我想要的两个顶级列。理想情况下,我也希望这些新列也被命名。
查看完整描述

3 回答

  • 3 回答
  • 0 关注
  • 4257 浏览

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号