pandas groupby 对象，组合和绘图

我可能不太了解何时或如何使用 pandas.DataFrame 的 groupby 函数。在下面的示例中，我想按花瓣长度对我的数据框进行分箱，并计算条目数、每个分箱的平均值和分布。我可以通过三个 groupby 调用来做到这一点，但随后我在三个单独的对象中得到了答案。因此，我之后将它们连接起来。现在我有一个对象，但所有列都称为萼片宽度，将名称传递给 concat 对我不起作用。我也想得到 bin 和平均值，例如用于绘图，但我不知道该怎么做。import matplotlib.pyplot as pltimport pandas as pdfrom sklearn import datasetsiris = datasets.load_iris()data = pd.DataFrame(iris.data)data.columns = iris.feature_namesdata["bin"] = pd.cut(data["petal length (cm)"], 5)g0 = data.groupby(["bin"])["sepal width (cm)"].count()g1 = data.groupby(["bin"])["sepal width (cm)"].mean()g2 = data.groupby(["bin"])["sepal width (cm)"].std()# how to get better names?g = pd.concat([g0, g1, g2], axis=1)print g# how to extract bin and mean e.g. for plotting?#plt.plot(g.bin, g.mean)

查看完整描述

1 回答

拉风的咖菲猫

TA贡献1995条经验获得超2个赞

关于问题的第二部分，您可以使用字符串操作。

如果我理解正确，你可以使用这个：

a = data['bin']

a1 = a.astype(str).str.strip('([])').str.split(',').str[0].astype(float)

a2 = a.astype(str).str.strip('([])').str.split(',').str[1].astype(float)

data['bin_center'] = (a1+a2)/2

g = data.groupby('bin_center')['sepal width (cm)'].agg(['count', 'mean', 'std'])

plt.plot(g.index, g['mean'])

//img1.sycdn.imooc.com//648834570001734306040523.jpg

顺便说一句，如果你不想要 bin 中心，并且你想查看带有 bins 的图，
你可以使用 dataframe plot：

g = data.groupby('bin')['sepal width (cm)'].agg(['count', 'mean', 'std'])
print(g)
g['mean'].plot()

//img1.sycdn.imooc.com//648834670001ebbb05670545.jpg

反对回复 2023-06-13

热搜

最近搜索清空

pandas groupby 对象，组合和绘图

pandas groupby 对象，组合和绘图

1 回答

添加回答