为了账号安全,请及时绑定邮箱和手机立即绑定

Python - 在 Pandas 中平均重采样的最佳方法

Python - 在 Pandas 中平均重采样的最佳方法

九州编程 2023-07-27 10:37:13
我有一个数据框。这是一个非常有限的例子。userID    scoreMetric    timeStamp    123       5              2020-05-16 22:03:19313       1              2020-05-16 22:03:20123       4              2020-05-16 22:13:20313       2              2020-05-16 22:13:20123       2              2020-05-16 22:32:20555       5              2020-05-16 22:32:20123       2              2020-05-16 22:32:56这是测试代码import pandas as pdfrom datetime import datetimedata = { 'userID': [123, 313, 123, 313, 123, 555, 123], 'scoreMetric': [5,1,4,2,2,5,2], 'timeStamp': ['2020-05-16 22:03:19', '2020-05-16 22:03:20', '2020-05-16 22:13:20', '2020-05-16 22:13:20', '2020-05-16 22:32:20', '2020-05-16 22:32:20', '2020-05-16 22:32:56'] }df = pd.DataFrame( data, columns=['userID', 'scoreMetric', 'timeStamp'])df.timeStamp = list( map( lambda x: datetime.strftime( datetime.strptime( x, '%Y-%m-%d %H:%M:%S'), '%Y-%m-%d %H:%M:%S' ), df.timeStamp ) )df.timeStamp = pd.to_datetime( df.timeStamp )我想要的是每个用户的平均值除以一个时间段内的用户数量。让我们以 22:00:01-22:30:00 作为我们的时间段。我们这里有 2 个用户 (123, 313),每个用户都有两个时间戳。所以我想要 [ (5+4)/2 + (1+2)/2 ] / 2 = [ 4.5 + 1.5 ] / = 3 作为我的返回值。现在我们取 22:30:01 到 23:00:00。我们这里又有 2 个用户 (123, 555),其时间戳可变。所以我想要 [ (2+2)/2 + (5)/1 ] / 2 = [ 2 + 5 ] / 2 = 3.5我认为应该有一种有效的方法通过重采样来做到这一点。例如,当我只计算平均值时我可以做df.set_index('timeStamp').scoreMetric.resample('30M').mean().fillna(0)然后给出 30 分钟内所有得分指标的平均值。我已经尝试了一些方法,但似乎没有什么可以解决采样问题,然后首先在每个用户的基础上进行计算。有没有方便的方法可以像这样简单的声明来做到这一点?我是否需要手动将时间序列分块,然后分段进行平均值等?
查看完整描述

2 回答

?
隔江千里

TA贡献1906条经验 获得超10个赞

IIUC,用于pd.Grouper按 30 分钟分组并userID获取每个 ID 的平均值,另一个groupby按时间仅获取每次平均值:


print (df.groupby([pd.Grouper(key="timeStamp", freq="1800s"), "userID"])

         .mean()["scoreMetric"].groupby(level=0).mean())


timeStamp

2020-05-16 22:00:00    3.0

2020-05-16 22:30:00    3.5


查看完整回答
反对 回复 2023-07-27
?
皈依舞

TA贡献1851条经验 获得超3个赞

如果我理解正确的话,您可以执行以下操作:

import numpy as np
df.set_index('timeStamp',inplace=True)

在这里您可以过滤日期:

data=df[(df.index > '2020-05-16 22:00:01') & (df.index  < '2020-05-16 22:30:00 ')]

进而:

data.groupby('userID')['scoreMetric'].mean().mean()

输出:

3


查看完整回答
反对 回复 2023-07-27
  • 2 回答
  • 0 关注
  • 123 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信