为了账号安全,请及时绑定邮箱和手机立即绑定

如何在写入 Java 中的镶木地板之前为 DataSet 列添加别名

如何在写入 Java 中的镶木地板之前为 DataSet 列添加别名

千万里不及你 2023-05-10 15:08:56
我在 java 中使用 apache spark,我想做的是过滤一些数据,按特定键对其进行分组,然后计算每个键的元素数量。目前我正在这样做:Dataset<MyBean> rawEvents = readData(spark);        Dataset<MyBean> filtered = rawEvents.filter((FilterFunction<MyBean>) events ->                //filter function              ));KeyValueGroupedDataset<String, MyBean> grouped = filtered                .groupByKey((MapFunction<MyBean, String>) event -> {                   return event.getKey();                }, Encoders.STRING());grouped.count().write().parquet("output.parquet");它无法写入,因为:org.apache.spark.sql.AnalysisException: Attribute name "count(1)" contains invalid character(s) among " ,;{}()\n\t=". Please use alias to rename it.;我怎样才能为计数列起别名,以免发生这种情况?
查看完整描述

2 回答

?
明月笑刀无情

TA贡献1828条经验 获得超4个赞

grouped.count()Dataset<Tuple2<String, Object>在你的情况下返回 a 。

本质上,重命名Dataset对象中的列将解决您的问题。

您可以使用DatasetwithColumnRenamed API的方法。

grouped.count().withColumnRenamed("count(1)", "counts").write().parquet("output.parquet")


查看完整回答
反对 回复 2023-05-10
?
吃鸡游戏

TA贡献1829条经验 获得超7个赞

grouped.count()选择所有列并添加to count 列后alias,使用 write 方法。


例子:


import static org.apache.spark.sql.functions.col;

import org.apache.spark.sql.Column;


Column[] colList =  { col("column1"), col("column2"), col("count(1)").alias("count") };

grouped.count().select(colList).write.parquet("output.parquet");


查看完整回答
反对 回复 2023-05-10
  • 2 回答
  • 0 关注
  • 114 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信