已解决430363个问题，去搜搜看，总会有你想问的

如何在 Python 中的 Spark 上快速执行 groupby 和计数？

首页猿问如何在 Python 中的...

如何在 Python 中的 Spark 上快速执行 groupby 和计数？

Python

神不在的星期二 2023-05-23 10:45:48

我一直在尝试在 Spark DataFrame 上执行 GroupBy 和 count() 很长时间但是它需要永远处理......处理以下行大约需要 13 秒。从我的角度来看，我认为这需要太多时间，但我不知道如何减少处理时间。matched.limit(100).groupBy('Date','Period').agg(count("*").alias('cnt')).show()我正在使用以下配置在 Spark 2.4 上运行：驱动程序：2 个 vCPU 8 GB RAM 10 个执行程序：2 个 vCPU 8 GB RAM谁能给我提示如何解决这个问题？

查看完整描述

1 回答

12345678_0001

TA贡献1802条经验获得超5个赞

我认为这是正确的方法。花费的时间将取决于那里有多少行。

df.groupBy('Date', 'Period').count().show(10, False)

反对回复 2023-05-23

1 回答
0 关注
111 浏览

关注

添加回答

0/150

提交

取消

意见反馈帮助中心 APP下载

官方微信

热搜

最近搜索清空

如何在 Python 中的 Spark 上快速执行 groupby 和计数？

如何在 Python 中的 Spark 上快速执行 groupby 和计数？

1 回答

添加回答