
本文详细介绍了在pandas dataframe中,如何针对特定分组(如`countryname`)计算当前行与前一行之间指定列的差异。通过结合`groupby()`和`apply()`方法,并利用`shift()`函数,可以高效地实现复杂的跨行数据操作,生成新的派生列。
在数据分析中,我们经常需要计算数据集中相邻行之间的差异,例如增长率、变化量等。当这些计算需要在一个或多个特定分组内进行时,简单的全局shift()操作将不再适用。本文将以一个具体的场景为例,详细讲解如何在Pandas中实现这种分组内的跨行差异计算。
假设我们有一个包含国家名称、年份、选举年份、id_score和Dem_Score等信息的DataFrame。我们的目标是为每个国家,计算当前行的Dem_Score与前一行的id_score之间的差异,并将结果存储在一个新列Delta_Dem_Dist中。
原始DataFrame结构示例如下:
countryname yr US_Election_Year id_score Dem_Score 0 Albania 1992 1990 0.688809 0.366570 1 Albania 1997 1996 0.024751 0.247750 2 Argentina 1995 1992 0.081818 0.398908 3 Argentina 1999 1996 -0.521796 0.247759 4 Argentina 2003 2000 -0.293386 -0.102298
我们期望的计算逻辑是:对于某一行,Delta_Dem_Dist = 前一行的id_score - 当前行的Dem_Score。 例如,对于阿根廷1999年的数据: Delta_Dem_Dist = (阿根廷1995年的id_score) - (阿根廷1999年的Dem_Score) Delta_Dem_Dist = 0.081818 - 0.247759 = -0.165941
最终期望的DataFrame结果:
countryname yr US_Election_Year id_score Dem_Score Delta_Dem_Dist 0 Albania 1992 1990 0.688809 0.366570 NaN 1 Albania 1997 1996 0.024751 0.247750 0.441059 2 Argentina 1995 1992 0.081818 0.398908 NaN 3 Argentina 1999 1996 -0.521796 0.247759 -0.165941 4 Argentina 2003 2000 -0.293386 -0.102298 -0.419498
注意:对于每个国家的第一行,由于没有“前一行”,其Delta_Dem_Dist值应为NaN。
如果不对DataFrame进行分组,直接使用 df['id_score'].shift(1) - df['Dem_Score'],会导致跨国家边界的计算错误。例如,阿尔巴尼亚1992年的前一行可能是上一个国家的最后一行,这显然不符合我们的业务逻辑。因此,我们需要确保shift()操作只在每个countryname组内进行。
Pandas提供了groupby()方法来按指定列对数据进行分组,然后可以使用apply()方法对每个组独立地执行操作。结合shift()函数,我们可以在每个组内实现所需的跨行计算。
核心思路如下:
下面是实现上述逻辑的Python代码:
import pandas as pd
# 原始DataFrame数据
data = {
'countryname': ['Albania', 'Albania', 'Argentina', 'Argentina', 'Argentina'],
'yr': [1992, 1997, 1995, 1999, 2003],
'US_Election_Year': [1990, 1996, 1992, 1996, 2000],
'id_score': [0.688809, 0.024751, 0.081818, -0.521796, -0.293386],
'Dem_Score': [0.366570, 0.247750, 0.398908, 0.247759, -0.102298]
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)
print("-" * 30)
# 计算Delta_Dem_Dist
df['Delta_Dem_Dist'] = df.groupby('countryname').apply(
lambda x: x['id_score'].shift(1) - x['Dem_Score']
).reset_index(drop=True)
print("计算Delta_Dem_Dist后的DataFrame:")
print(df)运行上述代码,将得到以下结果:
原始DataFrame: countryname yr US_Election_Year id_score Dem_Score 0 Albania 1992 1990 0.688809 0.366570 1 Albania 1997 1996 0.024751 0.247750 2 Argentina 1995 1992 0.081818 0.398908 3 Argentina 1999 1996 -0.521796 0.247759 4 Argentina 2003 2000 -0.293386 -0.102298 ------------------------------ 计算Delta_Dem_Dist后的DataFrame: countryname yr US_Election_Year id_score Dem_Score Delta_Dem_Dist 0 Albania 1992 1990 0.688809 0.366570 NaN 1 Albania 1997 1996 0.024751 0.247750 0.441059 2 Argentina 1995 1992 0.081818 0.398908 NaN 3 Argentina 1999 1996 -0.521796 0.247759 -0.165941 4 Argentina 2003 2000 -0.293386 -0.102298 -0.419498
关键点说明:
以上就是Pandas分组数据中跨行计算差异的技巧的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号