为了账号安全,请及时绑定邮箱和手机立即绑定

通过其他键将列添加到具有非唯一 ID 的 pyspark 数据框

通过其他键将列添加到具有非唯一 ID 的 pyspark 数据框

偶然的你 2021-07-28 22:25:13
为标题道歉 - 不知道如何轻松总结我的问题。我有一个包含 2 列、代码和 emp 的 pyspark 数据框。每个唯一的代码值都有多个 emp 值,如下所示。我希望添加一个列,为每个唯一的代码值应用一个递增的数字,例如下面的值列。我玩过monotonicallyIncreasingId(),并没有设法将其 id 创建限制为一个特定的代码键,实际上文档说索引不需要按顺序递增。+----+---+-----+|code|emp|value|+----+---+-----+|   a| 14|    1||   a| 22|    2||   a| 35|    3||   a| 64|    4||   b| 12|    1|...+----+---+-----+如果这对效率有任何影响,则每个代码值最多有 4 个 emp 值。索引应随着 emp 值的大小而增加 - 最低值应为 1,最高值为 n,其中 n 是具有特定代码的记录数。
查看完整描述

3 回答

?
慕容708150

TA贡献1831条经验 获得超4个赞

对于 Scala,您可以创建一个带有增量索引列的数据框,如下所示:


%scala

val rankedWordCount = sqlContext.sql("select row_number() over (order by some_numeric_value desc) as index_col,lower(info) as info, some_numeric_value from information_table")



查看完整回答
反对 回复 2021-08-03
  • 3 回答
  • 0 关注
  • 154 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信