为了账号安全,请及时绑定邮箱和手机立即绑定

'Column' 对象不能用 Regex 和 Pyspark 调用

'Column' 对象不能用 Regex 和 Pyspark 调用

ABOUTYOU 2022-07-05 19:48:58
我只需要从“页面 URL”列中的 url 字符串中提取整数,并将这些提取的整数附加到新列中。我正在使用 PySpark。我的代码如下:from pyspark.sql.functions import col, regexp_extractspark_df_url.withColumn("new_column", regexp_extract(col("Page URL"), "\d+", 1).show())我有以下错误: TypeError: 'Column' object is not callable。
查看完整描述

1 回答

?
开满天机

TA贡献1786条经验 获得超13个赞

您可以使用

spark_df_url.withColumn("new_column", regexp_extract("Page URL", "\d+", 0))

将字符串列的名称指定为第一个参数,regexp_replace并确保将第三个参数设置为,0因为您的模式没有捕获组,并且您有兴趣获取整个匹配值作为结果。

请注意,当您指定1为第三个参数时,您会得到空结果:

如果正则表达式不匹配,或者指定的组不匹配,则返回一个空字符串。


查看完整回答
反对 回复 2022-07-05
  • 1 回答
  • 0 关注
  • 91 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信