
本文深入探讨了在 Pandas DataFrame 中,如何创建一个新列 c,该列的值基于列 b 的累积最小值 (cummin()),但其计算过程会根据列 a 和 c 的前一个值的特定条件进行动态重置。我们将通过一个复杂的布尔掩码和分组操作的组合,展示一个高效且完全向量化的解决方案,以应对这种递归依赖的计算挑战。
在数据分析和处理中,我们经常需要根据复杂的业务逻辑创建新的特征列。其中一种常见的需求是计算累积最小值 (cummin()),但更具挑战性的是,当这个累积最小值需要在特定条件下“重置”并重新开始计算时。本教程将详细介绍如何使用 Pandas 库,以向量化的方式解决一个具体的问题:创建一个新列 c,它基于列 b 的累积最小值,但在满足 df.a.shift(1) > df.c.shift(1) 这一条件时,c 的值变为当前 b 的值,并且 cummin() 的计算从该点重新开始。
假设我们有一个 Pandas DataFrame,包含两列 a 和 b:
import pandas as pd
df = pd.DataFrame(
{
'a': [98, 97, 100, 135, 103, 100, 105, 109, 130],
'b': [100, 103, 101, 105, 110, 120, 101, 150, 160]
}
)
print("原始 DataFrame:")
print(df)我们的目标是创建列 c,其计算规则如下:
这是一个具有挑战性的问题,因为它涉及到对 c 列的递归依赖(c 的计算依赖于其自身的先前值),这使得简单的向量化操作变得困难。
期望的输出 df 如下:
a b c 0 98 100 100 1 97 103 100 2 100 101 100 3 135 105 100 4 103 110 110 # 条件触发,c=b,cummin重置 5 100 120 110 # 从上一行b=110开始的cummin 6 105 101 101 # 从上一行b=110开始的cummin 7 109 150 150 # 条件触发,c=b,cummin重置 8 130 160 150 # 从上一行b=150开始的cummin
为了解决这种带有条件重置的累积计算问题,我们可以利用 Pandas 的 groupby 和布尔掩码 (mask, where) 功能。以下是实现所需逻辑的向量化代码:
m1 = df["b"].le(df["a"].shift())
cm = df["b"].groupby(m1.cumsum()).cummin()
m2 = (df["b"].le(cm) | df["a"].shift().le(cm.shift()))
df["c"] = cm.where(m2, df["b"].mask(m2).cummin())
print("\n生成列 'c' 后的 DataFrame:")
print(df)这个解决方案通过引入几个中间布尔掩码和分组累积操作,巧妙地避免了递归计算,实现了完全的向量化。让我们逐步解析每个部分的含义:
m1 = df["b"].le(df["a"].shift())
示例 m1 值的生成:
a_s (a.shift()) b b <= a_s -> m1 NaN 100 False 98.0 103 False 97.0 101 False 100.0 105 False 135.0 110 True # b(110) <= a_s(135) 103.0 120 False 100.0 101 False 105.0 150 False 109.0 160 False
cm = df["b"].groupby(m1.cumsum()).cummin()
示例 cm 值的生成:
m1 m1.cumsum() b cm (分组cummin) False 0 100 100 False 0 103 100 False 0 101 100 False 0 105 100 True 1 110 110 False 1 120 110 False 1 101 101 False 1 150 101 False 1 160 101
m2 = (df["b"].le(cm) | df["a"].shift().le(cm.shift()))
示例 m2 值的生成:
b cm b<=cm a_s cm_s a_s<=cm_s m2 (b<=cm | a_s<=cm_s) 100 100 True NaN NaN False True 103 100 False 98 100 True True 101 100 False 97 100 True True 105 100 False 100 100 True True 110 110 True 135 100 False True 120 110 False 103 110 True True 101 101 True 100 110 True True 150 101 False 105 101 False False # b(150)>cm(101) 且 a_s(105)>cm_s(101) 160 101 False 109 101 False False # b(160)>cm(101) 且 a_s(109)>cm_s(101)
df["c"] = cm.where(m2, df["b"].mask(m2).cummin())
以上就是使用 Pandas 实现条件性累积最小值(cummin)重置的技巧的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号