我一直在尝试在 Spark DataFrame 上执行 GroupBy 和 count() 很长时间但是它需要永远处理......处理以下行大约需要 13 秒。从我的角度来看,我认为这需要太多时间,但我不知道如何减少处理时间。matched.limit(100).groupBy('Date','Period').agg(count("*").alias('cnt')).show()我正在使用以下配置在 Spark 2.4 上运行:驱动程序:2 个 vCPU 8 GB RAM 10 个执行程序:2 个 vCPU 8 GB RAM谁能给我提示如何解决这个问题?
1 回答
12345678_0001
TA贡献1802条经验 获得超5个赞
我认为这是正确的方法。花费的时间将取决于那里有多少行。
df.groupBy('Date', 'Period').count().show(10, False)
添加回答
举报
0/150
提交
取消