Pandas:高效计算分组内前序数据的累积中位数

DDD
发布: 2025-10-13 11:14:16
原创
607人浏览过

Pandas:高效计算分组内前序数据的累积中位数

本文详细介绍了如何在pandas dataframe中,为每个分组内的记录计算其所有前序数据的累积中位数。通过结合 `groupby.transform`、`shift` 和 `expanding.median` 方法,可以高效且优雅地解决这一常见的数据处理需求,特别适用于需要基于历史数据进行分析的场景。

Pandas中按组计算前序行累积中位数

在数据分析中,我们经常会遇到需要基于历史数据进行计算的场景。例如,在一个按ID分组的有序数据集中,我们可能需要计算每个ID下,当前行之前所有“Amount”值的累积中位数。这要求我们不仅要考虑分组,还要考虑数据的时间或顺序性,并且只使用当前行之前的数据。

问题描述与示例

假设我们有一个Pandas DataFrame,其中包含 Index、ID 和 Amount 列,并且数据是按 Index 有序排列的:

   Index ID  Amount
0      1  A      10
1      2  A      15
2      3  A      17
3      4  A      12
4      5  A      10
5      6  B      20
6      7  B      15
登录后复制

我们的目标是添加一个新列 MedianOfPastElements,该列的值表示相同 ID 下,当前行之前所有 Amount 值的累积中位数。例如:

  • 对于ID 'A'的第二行 (Amount=15),其前序值为 (10),中位数为 10。
  • 对于ID 'A'的第三行 (Amount=17),其前序值为 (10, 15),中位数为 (10+15)/2 = 12.5。
  • 对于每个ID的第一行,由于没有前序数据,其结果应为 NaN。

期望的输出结果如下:

   Index ID  Amount  MedianOfPastElements
0      1  A      10                   NaN
1      2  A      15                  10.0
2      3  A      17                  12.5
3      4  A      12                  15.0
4      5  A      10                  13.5
5      6  B      20                   NaN
6      7  B      15                  20.0
登录后复制

解决方案

Pandas提供了一套强大且灵活的工具来处理这类分组和窗口操作。解决此问题的关键在于结合使用 groupby.transform、shift 和 expanding.median。

import pandas as pd
import numpy as np

# 示例数据
data = {
    'Index': [1, 2, 3, 4, 5, 6, 7],
    'ID': ['A', 'A', 'A', 'A', 'A', 'B', 'B'],
    'Amount': [10, 15, 17, 12, 10, 20, 15]
}
df = pd.DataFrame(data)

# 计算前序元素的累积中位数
df['MedianOfPastElements'] = (df.groupby('ID')['Amount']
                                .transform(lambda s: s.shift().expanding().median())
                             )

print(df)
登录后复制

核心逻辑解析

让我们逐步分解这段代码,理解它是如何实现所需功能的:

  1. df.groupby('ID')['Amount']:

    • 首先,我们通过 groupby('ID') 将DataFrame按 ID 列进行分组。这意味着后续的操作将独立地应用于每个唯一的 ID 组。
    • 然后,我们选择 Amount 列 (['Amount']),因为我们只关心这一列的数值进行计算。
  2. .transform(lambda s: ...):

    算家云
    算家云

    高效、便捷的人工智能算力服务平台

    算家云 37
    查看详情 算家云
    • transform 方法用于在分组操作后,将结果广播回原始DataFrame的索引。它接受一个函数(这里是一个 lambda 函数),该函数会应用于每个分组的 Amount Series (s)。
    • transform 的一个关键特性是它会返回一个与原始DataFrame具有相同索引和行数的新Series,确保计算结果能正确地对齐到原始数据。
  3. s.shift():

    • 在 lambda 函数内部,s 代表当前分组的 Amount Series。
    • s.shift() 操作会将Series中的值向下移动一个位置。这意味着当前行的值会变成下一行的值,而当前行的位置会填充 NaN。
    • 作用:这是获取“前序”数据的关键步骤。通过 shift(),我们确保了在计算当前行的中位数时,只能访问到其在原始序列中排在前面的值。每个分组的第一行经过 shift() 后,其 Amount 值将变为 NaN。
  4. .expanding():

    • expanding() 是Pandas窗口函数的一种,它创建一个“扩展窗口”对象。对于Series中的每一个点,expanding() 窗口会包含从Series开始到当前点(包括当前点)的所有数据。
    • 作用:结合 shift() 后,expanding() 确保了我们计算的是从分组开始到当前行 之前 的所有值的累积中位数。
  5. .median():

    • 最后,.median() 方法应用于 expanding() 窗口,计算每个扩展窗口内的中位数。
    • 作用:在 shift() 和 expanding() 的配合下,它精确地计算了每个分组内,当前行之前所有 Amount 值的累积中位数。

结果展示

运行上述代码,将得到以下输出:

   Index ID  Amount  MedianOfPastElements
0      1  A      10                   NaN
1      2  A      15                  10.0
2      3  A      17                  12.5
3      4  A      12                  15.0
4      5  A      10                  13.5
5      6  B      20                   NaN
6      7  B      15                  20.0
登录后复制

可以看到,MedianOfPastElements 列准确地反映了每个ID分组内,当前行之前 Amount 值的累积中位数。对于每个分组的第一行,由于 shift() 操作导致其值为 NaN,因此累积中位数也为 NaN,这符合预期。

注意事项与扩展

  • 首行 NaN: 每个分组的第一行 MedianOfPastElements 将是 NaN。这是因为 shift() 操作将该行的 Amount 值移到了下一行,而该行自身则变成了 NaN。expanding().median() 在只看到一个 NaN 时,结果自然也是 NaN。
  • 性能: 这种组合方法在Pandas中是高度优化的,对于大型数据集也能提供良好的性能。
  • 其他聚合函数: expanding() 不仅可以与 median() 结合使用,还可以与 mean()、sum()、min()、max()、std() 等多种聚合函数结合,以计算不同类型的累积统计量。
  • 适用场景: 这种技术在时间序列分析(例如计算过去N天的平均值)、用户行为分析(例如计算用户历史消费中位数)等场景中非常有用。

总结

通过巧妙地结合 groupby.transform、shift 和 expanding.median,Pandas提供了一种简洁而强大的方式来解决分组内前序数据累积统计的复杂问题。掌握这种模式对于进行高级数据分析和特征工程至关重要,能够帮助我们从有序数据中提取有价值的历史信息。

以上就是Pandas:高效计算分组内前序数据的累积中位数的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号