我有一个包含大约200列的数据框,其中我想要将表格分组前10个左右,这些是因子并将其余列相加。我有我要分组的所有列名列表以及我想要聚合的所有列的列表。我正在寻找的输出格式需要是相同数量的cols的相同数据帧,只是组合在一起。有没有使用包解决方案data.table,plyr或任何其他?
3 回答
万千封印
TA贡献1891条经验 获得超3个赞
该data.table的方法是:
DT[, lapply(.SD,sum), by=list(col1,col2,col3,...)]
要么
DT[, lapply(.SD,sum), by=colnames(DT)[1:10]]
其中.SD是(D)ata的(S)ubset,不包括组列。(旁白:如果你需要一般性地引用组列,它们就在.BY。)
元芳怎么了
TA贡献1798条经验 获得超7个赞
在基地R这将是......
aggregate( as.matrix(df[,11:200]), as.list(df[,1:10]), FUN = sum)
编辑:自从我写这篇文章以来,聚合函数已经走了很长的路。以上铸件都不是必需的。
aggregate( df[,11:200], df[,1:10], FUN = sum )
有很多方法可以写这个。假设前10个列a1通过a10I 命名,如下所示,即使它很详细。
aggregate(. ~ a1 + a2 + a3 + a4 + a5 + a6 + a7 + a8 + a9 + a10, data = dat, FUN = sum)
(您可以使用粘贴来构建公式并使用formula)
- 3 回答
- 0 关注
- 744 浏览
添加回答
举报
0/150
提交
取消