使用 spark 我为每个组(队列)聚合数据以仅包含平均值、标准差和方差。现在在使用 python 的第二步中,我想测试正常性(https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.normaltest.html),然后使用 t-测试stats.ttest_ind或stats.wilcoxon等级测试。然而,所有这些方法都期望数据作为原始的面向记录的值输入。如何将它们与预先聚合的数据一起使用?
1 回答

炎炎设计
TA贡献1808条经验 获得超4个赞
均值、标准差和方差不足以检验每个队列的正态性。标准差是方差的平方根,所以你只有两个统计量的信息。
您还可以(或代替)计算两个汇总统计偏度和峰度,并保存观察的计数。Jarque-Bera 检验是一种正态性检验,仅取决于偏度、峰度和观察次数。
添加回答
举报
0/150
提交
取消