获取数据框列中列表的最后一个元素

我的 Spark 数据框由 3 列组成，每一列都是列表。每行列表的长度可能会有所不同。例如我的数据框看起来像我希望能够获得这些列表的最后一个元素。预期产出有一篇文章使用 df = df.withColumn("First_item_Col1",df['Col1'][0]) 获取列表的第一个元素但是当我使用 -1 来获取上一行中的最后一项时，它给了我空值

查看完整描述

2 回答

慕仙森

TA贡献1827条经验获得超8个赞

您可以将 lambda 函数应用于 Col1 和 Col2 并获取最后一项，如下所示：

df['Last_Col1']=df['Col1'].apply(lambda x: x[-1])

df['Last_Col2']=df['Col2'].apply(lambda x: x[-1])

输出：

>>> print(df)

Col1 Col2 Last_Col1 Last_Col2

0 [X, X] [A, B] X B

1 [Y] [B] Y B

2 [X, Y, Z] [A, C] Z C

3 [X, Y, Y, Z] [A, B, B, C] Z C

反对回复 2023-12-08

陪伴而非守候

TA贡献1757条经验获得超8个赞

您可以使用 Spark 高阶函数 - element_at 来从列表列中获取最后一个元素，如下所示

创建数据框

df = spark.createDataFrame([(1,['x','x']),(2,['y']),(3,['x','y','z']),(4,['x','y','y','z'])],[ "col1","col2"])

df.show(truncate=False)

+----+------------+

|col1|col2 |

+----+------------+

|1 |[x, x] |

|2 |[y] |

|3 |[x, y, z] |

|4 |[x, y, y, z]|

+----+------------+

解决方案

df = df.withColumn("list_col", F.element_at(F.col('col2'), -1).alias('1st_from_end'))

df.show(truncate=False)

+----+------------+--------+

|col1|col2 |list_col|

+----+------------+--------+

|1 |[x, x] |x |

|2 |[y] |y |

|3 |[x, y, z] |z |

|4 |[x, y, y, z]|z |

+----+------------+--------+

反对回复 2023-12-08

热搜

最近搜索清空

获取数据框列中列表的最后一个元素

获取数据框列中列表的最后一个元素

2 回答

添加回答