我想以 Parquet 或 Avro 文件的形式获取 Spark 应用程序的输出(我们只使用核心 Spark,并且从事该项目的人员不想将其更改为 Spark SQL)。当我查找这两种文件类型时,我找不到任何没有 DataFrames 或一般 Spark SQL 的示例。我可以在不使用 SparkSQL 的情况下实现这一目标吗?我的数据是表格,它有列,但在处理中,将使用所有数据,而不是单个列。它的列是在运行时决定的,所以没有“名称、ID、地址”有点通用的列。它看起来像这样:No f1 f2 f3 ...1, 123.456, 123.457, 123.458, ...2, 123.789, 123.790, 123.791, ......
2 回答
UYOU
TA贡献1878条经验 获得超4个赞
您不能在不将其转换为数据帧的情况下将 rdd 保存在镶木地板中。Rdd 没有架构,但镶木地板文件是需要架构的列格式,因此我们需要将其转换为数据帧。
您可以使用 createdataframe api
添加回答
举报
0/150
提交
取消