为了账号安全,请及时绑定邮箱和手机立即绑定

如何按组计算两列值的比率?

如何按组计算两列值的比率?

慕斯王 2021-07-14 13:01:31
我有一个航班列表作为熊猫数据框,如下所示:airline        status          number    ...Aer Lingus     some error A        14    ...Aeroflot       success             47    ...Air Canada     success              2    ...Air Dolomiti   success              2    ...Air Europa     some error B         4    ...Air France     success             40    ...Alitalia       some error A        10    .......我为每个成功或出错的航班进行了一些 api 调用。我想要的是每家航空公司的成功率。所以我知道我可以用 groupby 计算“航空公司”和“状态”列中值的出现次数,但我没有对值的比率执行此操作。def calculate_quote_success_ratios(flights):    success_ratio_per_airline = flights.groupby(['airline', 'status']).count()    # TODO: Include ratio with failures!    return success_ratio_per_airline预期的输出应该是这样的:airline        success_ratioAer Lingus     0.72Aeroflot       0.845Air Canada     0.935Air Dolomiti   0.5Air Europa     .......编辑:要清楚,该列df['numbers']不相关。所以我只想计算每家航空公司各种错误的“成功”百分比。
查看完整描述

3 回答

?
阿波罗的战车

TA贡献1862条经验 获得超6个赞

我有一个航班列表作为熊猫数据框,如下所示:


airline        status          number    ...


Aer Lingus     some error A        14    ...

Aeroflot       success             47    ...

Air Canada     success              2    ...

Air Dolomiti   success              2    ...

Air Europa     some error B         4    ...

Air France     success             40    ...

Alitalia       some error A        10    ...

....

我为每个成功或出错的航班进行了一些 api 调用。


我想要的是每家航空公司的成功率。所以我知道我可以用 groupby 计算“航空公司”和“状态”列中值的出现次数,但我没有对值的比率执行此操作。


def calculate_quote_success_ratios(flights):


    success_ratio_per_airline = flights.groupby(['airline', 'status']).count()

    # TODO: Include ratio with failures!


    return success_ratio_per_airline

预期的输出应该是这样的:


airline        success_ratio


Aer Lingus     0.72

Aeroflot       0.845

Air Canada     0.935

Air Dolomiti   0.5

Air Europa     ...

....

编辑:要清楚,该列df['numbers']不相关。所以我只想计算每家航空公司各种错误的“成功”百分比。


查看完整回答
反对 回复 2021-07-21
?
梵蒂冈之花

TA贡献1900条经验 获得超5个赞

分组明智的航班数量计数

count_flight=df.groupby('airline').status.count()

成功数量的分组明智计数

count_success=df[df['status']=='success'].groupby('airline').status.count()

pandas div 返回前两个数据帧的分组比率。

count_success.div(count_flight).fillna(0)


查看完整回答
反对 回复 2021-07-21
?
HUX布斯

TA贡献1876条经验 获得超6个赞

我不得不修改你的例子才能让它工作,但你可以简单地做 df.groupby(['airline', 'status']).sum() / df.groupby(['airline']).sum()


原始 df:


airline           status    number

0   Aer Lingus  some error A    14

1   Aeroflot    success 47

2   Air Canada  success 2

3   Air Dolomiti    success 2

4   Air Europa  some error B    4

5   Air France  success 40

6   Alitalia    some error A    10

7   Alitalia    success 10

8   Air France  some error B    10

9   Aer Lingus  success 12




df.groupby(['airline', 'status']).sum() / df.groupby(['airline']).sum()


                                  number

airline         status  

Aer Lingus     some error A     0.538462

               success          0.461538

Aeroflot       success          1.000000

Air Canada      success         1.000000

Air Dolomiti    success         1.000000

Air Europa    some error B      1.000000

Air France    some error B      0.200000

              success           0.800000

Alitalia      some error A      0.500000

              success           0.500000


查看完整回答
反对 回复 2021-07-21
  • 3 回答
  • 0 关注
  • 127 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信