使用 Pandas cummax() 维护序列中的历史最大值

聖光之護
发布: 2025-11-21 14:33:22
原创
895人浏览过

使用 Pandas cummax() 维护序列中的历史最大值

本文将深入探讨如何利用 pandas 库中的 `cummax()` 函数,高效地在 dataframe 中创建一个新列,该列能够追踪并保留序列中迄今为止遇到的最大值。通过一个实际案例,我们将展示 `cummax()` 如何简洁而准确地实现复杂的数据累计最大值保持逻辑,避免手动迭代的繁琐,从而优化数据处理流程。

引言:追踪并维护序列中的历史最大值

在数据分析和处理中,我们经常会遇到需要在一个序列中追踪并保留迄今为止所遇到的最大值(或最小值)的需求。例如,在金融数据分析中,可能需要跟踪股票价格的历史最高点;在性能监控中,可能需要记录系统的峰值负载。这类问题通常要求创建一个新列,其值在遇到更大的新值时更新,否则保持上一个最大值。虽然这类逻辑听起来可能有些复杂,但 Pandas 库提供了一个非常简洁且高效的内置函数来解决它。

数据准备

首先,我们通过一个示例 DataFrame 来阐述这个问题。假设我们有一个包含数值列 a 的 DataFrame,我们希望创建一个新列 c,使其在每个点上都表示 a 列从开始到当前位置的最大值。

import pandas as pd

df = pd.DataFrame(
    {
        'a': [110, 115, 112, 180, 150, 175, 160, 145, 200, 205, 208, 203, 206, 207, 208, 209, 210, 215],
        'b': [1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1], # 列 'b' 在本教程中不直接用于计算 'c'
    }
)

print("原始 DataFrame:")
print(df)
登录后复制

原始 DataFrame 输出:

      a  b
0   110  1
1   115  1
2   112  0
3   180  1
4   150  0
5   175  1
6   160  0
7   145  0
8   200  1
9   205  1
10  208  1
11  203  0
12  206  1
13  207  1
14  208  1
15  209  1
16  210  1
17  215  1
登录后复制

问题分析与期望结果

原始问题描述中,用户试图通过一个辅助列 b 来标识 a 列的递增趋势,并进一步构思了复杂的“连胜(streak)”概念,希望在连胜结束时保留连胜期间的最大值,直到遇到更大的新值才更新。然而,仔细分析用户提供的期望输出 c 列,可以发现其行为模式实际上与 pandas.Series.cummax() 函数的功能完全一致。也就是说,c 列在任何时刻都存储着 a 列从开始到当前位置所遇到的最大值。

期望输出 c 列的逻辑:

  • c 的第一个值是 a 的第一个值。
  • 对于后续的每一个位置,c 的值是当前 a 的值与前一个 c 的值中的较大者。

例如:

  • c[0] = a[0] = 110
  • c[1] = max(a[1], c[0]) = max(115, 110) = 115
  • c[2] = max(a[2], c[1]) = max(112, 115) = 115 (因为 112 不大于 115)
  • c[3] = max(a[3], c[2]) = max(180, 115) = 180
  • 以此类推...

解决方案:pandas.Series.cummax()

Pandas 库为这种累积计算提供了专门的函数,其中 Series.cummax() 就是用于计算序列累积最大值的函数。它会遍历 Series 中的每个元素,并返回一个新 Series,其中每个位置的值是到该位置为止所有元素的累积最大值。

实现代码:

落笔AI
落笔AI

AI写作,AI写网文、AI写长篇小说、短篇小说

落笔AI 41
查看详情 落笔AI
# 使用 cummax() 计算列 'c'
df['c'] = df['a'].cummax()

print("\n生成 'c' 列后的 DataFrame:")
print(df)
登录后复制

输出结果:

      a  b    c
0   110  1  110
1   115  1  115
2   112  0  115
3   180  1  180
4   150  0  180
5   175  1  180
6   160  0  180
7   145  0  180
8   200  1  200
9   205  1  205
10  208  1  208
11  203  0  208
12  206  1  208
13  207  1  208
14  208  1  208
15  209  1  209
16  210  1  210
17  215  1  215
登录后复制

从输出结果可以看出,df['c'] = df['a'].cummax() 完美地实现了期望的逻辑,即在 a 列中遇到更大的值时更新 c,否则保持当前的最大值。

cummax() 函数详解

pandas.Series.cummax() 是一个强大的函数,它属于 Series 对象的方法,用于执行累积最大值计算。

工作原理:

  1. 它从 Series 的第一个元素开始。
  2. 对于每个元素,它将其与之前所有元素的累积最大值进行比较。
  3. 如果当前元素大于累积最大值,则累积最大值更新为当前元素的值。
  4. 否则,累积最大值保持不变。
  5. 这个累积最大值被记录在新 Series 的对应位置。

参数说明:

  • axis: 默认为 None。对于 Series,此参数没有意义。对于 DataFrame,可以指定按行或按列计算。
  • skipna: 默认为 True。表示在计算时跳过 NaN(非数字)值。如果设置为 False,则 NaN 值将传播,即如果累积过程中遇到 NaN,则后续结果都将是 NaN。

示例(skipna 参数):

s = pd.Series([1, 3, None, 2, 5])

# skipna=True (默认行为)
print("skipna=True:")
print(s.cummax())
# 输出: 0    1.0
#       1    3.0
#       2    3.0 (None 被跳过,保留前一个最大值)
#       3    3.0
#       4    5.0
#       dtype: float64

# skipna=False
print("\nskipna=False:")
print(s.cummax(skipna=False))
# 输出: 0    1.0
#       1    3.0
#       2    NaN (遇到 None 后传播 NaN)
#       3    NaN
#       4    NaN
#       dtype: float64
登录后复制

注意事项与总结

  1. 简洁性与效率: cummax() 函数是高度优化的 C 语言实现,比手动编写循环来计算累积最大值要快得多,尤其是在处理大型数据集时。
  2. 问题澄清: 在实际工作中,有时对问题的描述可能比实际需求更复杂。本案例中,尽管原始问题描述了复杂的“连胜”和 b 列逻辑,但最终期望的 c 列输出却直接对应 cummax() 的功能。因此,理解核心需求并将其映射到 Pandas 的内置功能是高效解决问题的关键。
  3. 适用场景: cummax() 不仅适用于追踪数值序列的历史最大值,其对应的 cummin() 可用于追踪历史最小值,cumsum() 用于累积和,cumprod() 用于累积乘积。这些函数在时间序列分析、性能指标计算、数据规范化等多种场景下都非常有用。

通过 pandas.Series.cummax(),我们可以以极高的效率和简洁性解决在 DataFrame 中维护历史最大值的问题。掌握这类内置函数是提升 Pandas 数据处理能力的重要一步。

以上就是使用 Pandas cummax() 维护序列中的历史最大值的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号