首页猿问 Spark：从 ColumnA 到...

Spark：从 ColumnA 到 ColumnB 的字符串操作

Python

ABOUTYOU 2023-06-20 16:31:54

查看完整描述

3 回答

Cats萌萌

TA贡献1805条经验获得超9个赞

你可以用'|'分割你的专栏像下面导入 spark.implicits._

val df = mainDf.select("Column1","Column2").map(x => {

val s1 = x.getAsString(0).replaceAll("^.*3_","").split("|");

val s2 = x.getAsString(1).replaceAll("^.*3_","").split("|");

(x.getAsString(0),x.getAsString(1),s2.diff(s1).union(s1.diff(s2)))

}

).toDF("Column1","Column2","Column3")

反对回复 2023-06-20

精慕HU

TA贡献1845条经验获得超8个赞

你也可以通过regexp_replace和udf来达到你的目的。

regexp_replace 替换“|” 用“，”和“。* 3_”用“”
udf从column2和column1获取column3的值

val df2 =df1.columns.foldLeft(df) { (memoDF, colName) =>

memoDF.withColumn(

colName,

regexp_replace(regexp_replace(col(colName), "\\|", ","),".*3_",""))}

val diff_udf = udf { ( a: String, b: String) => (a.split(",") diff b.split(",")).mkString(",") }

df2.withColumn("column3", diff_udf(col("column2"), col("column1"))).show(false)

输出：

+-------------------------+--------------------------------------+------------+

|column1 |column2 |column3 |

+-------------------------+--------------------------------------+------------+

|APPLE,BANANA,GUAVA,ORANGE|APPLE,BANANA,GUAVA,GRAPES,ORANGE,BERRY|GRAPES,BERRY|

+-------------------------+--------------------------------------+------------+

反对回复 2023-06-20

慕村9548890

TA贡献1884条经验获得超4个赞

对于Spark >= 2.4

您可以使用array_except

import spark.implicits._

val df = Seq(

).toDF("column1", "column2")

val remove = df.columns.map(column => split(col(column), "3_").getItem(1).as(column))

val resultDF = df.select(remove: _*)

.withColumn("column1", split($"column1", "\\|"))

.withColumn("column2", split($"column2", "\\|"))

.withColumn("column3", array_except($"column2", $"column1"))

.withColumn("column1", array_except($"column1", $"column3"))

.withColumn("column2", array_except($"column2", $"column3"))

val convertToString = resultDF.columns.map(column => concat_ws("|", col(column)).as(column))

resultDF.select(convertToString: _*).show(false)

输出：

+-------------------------+-------------------------+------------+

|column1 |column2 |column3 |

+-------------------------+-------------------------+------------+

+-------------------------+-------------------------+------------+

反对回复 2023-06-20

3 回答
0 关注
323 浏览

关注

添加回答

0/150

提交

取消

热搜

最近搜索清空

Spark：从 ColumnA 到 ColumnB 的字符串操作

Spark：从 ColumnA 到 ColumnB 的字符串操作

3 回答

添加回答