Pandas DataFrame分段数据处理与累计求和技巧-Python教程-PHP中文网

Pandas DataFrame分段数据处理与累计求和技巧

碧海醫心

发布： 2025-10-27 13:54:11

原创

553人浏览过

Pandas DataFrame分段数据处理与累计求和技巧

本文深入探讨在python pandas中处理分段dataframe数据时，如何有效实现特定数值的累加求和。针对在循环中直接使用`sum()`可能导致返回多个独立和而非最终总和的问题，本教程详细阐述了通过引入累加器变量来正确收集并输出所有分段内符合条件的数值之和，从而确保数据处理的准确性和结果的单一性。

引言

在数据分析场景中，我们经常需要从一个大型数据集中提取并处理特定子集。当这些子集以不规则的分段形式存在于DataFrame中时，例如通过特定的起始和结束标记来界定，对其内部数据进行汇总计算（如求和）就变得尤为重要。然而，初学者在尝试对这些分段数据进行累加求和时，常会遇到sum()函数在循环中返回多个独立值而非一个总和的困惑。本教程旨在解决这一常见问题，并提供一个清晰、专业的解决方案。

问题描述：为何sum()会返回多个值？

考虑以下场景：一个DataFrame包含多个逻辑数据块，每个数据块由一个“START”标记开始，并由一个“END”标记结束。我们的目标是遍历这些数据块，在每个数据块中筛选出特定条件（例如breed == "Wolf"）的行，并对这些行的“Age”列进行求和。

原始代码尝试通过循环遍历每个分段，并在分段内部进行筛选和求和，然后直接打印结果：

import pandas as pd

data = {'Begin': ['START', '', '', 'START', '', '', 'START', '', '','', 'START', '', ''],
        'Type': ['Dog', '', 'END', 'Cat', '', 'END', 'Dog', '', '','END', 'Cat', '', 'END'],
        'breed': ['', 'Wolf', 'bork', '','Wolf', '', '','Wolf','bork','', '','Wolf','bork'],
        'Age': [20, 21, 19, 18,20, 21, 19,15,16,0, 19,15,16]
       }

data = pd.DataFrame(data)
Start = (data['Type'].index[data['Begin']=='START']).astype(int)
End = (data['Type'].index[data['Type']=='END']).astype(int)

for index, value in enumerate(Start):
    Frip = data.iloc[int(value) : End[int(f'{index}')]]
    if Frip.loc[value].str.contains('Dog').any() == True: # 这里的条件筛选可能需要根据实际逻辑调整
        TESTING = pd.to_numeric(Frip.query('breed == "Wolf"').Age)
        TESTING = sum(TESTING) # 在这里求和
        print(TESTING) # 在这里打印

登录后复制

这段代码的问题在于，print(TESTING)语句位于for循环内部。这意味着每次循环迭代，即每处理完一个数据分段并计算出其内部的Wolf犬种的Age总和后，程序都会立即将这个分段的局部和打印出来。因此，如果存在多个符合条件的分段，你将看到多个独立的求和结果，而不是一个累积的总和。

解决方案核心：使用累加器变量

要获得所有分段内符合条件的数值的单一总和，我们需要引入一个“累加器”变量。这个变量在循环开始前初始化为零，然后在每次循环迭代中，将当前分段计算出的局部和加到这个累加器变量上。循环结束后，累加器变量中存储的就是所有局部和的最终总和。

分步实现累计求和

我们将通过一个具体的例子来演示如何正确地实现分段数据的累计求和。

1. 数据准备与分段标识

首先，定义我们的示例DataFrame，并确定每个数据分段的起始和结束索引。

import pandas as pd

# 示例数据，略作简化以聚焦核心问题
data = {'Type': ['Dog', '', '', 'Cat', '', '', 'Dog', '', '','Cat'],
        'breed': ['', 'Wolf', 'bork', '','', '', '','Wolf','bork',''],
        'Age': [20, 21, 19, 18,20, 21, 19,15,16,0]
       }
data = pd.DataFrame(data)

# 识别分段的起始和结束索引
# 假设'Dog'标记一个分段的开始，'Cat'标记一个分段的结束
Start = (data['Type'].index[data['Type']=='Dog']).astype(int)   
End = (data['Type'].index[data['Type']=='Cat']).astype(int)

登录后复制

在这个简化示例中，我们假设'Dog'作为起始标记，'Cat'作为结束标记。实际应用中，这些标记可能来自更复杂的逻辑判断。

ListenLeap

AI辅助通过播客学英语

101

查看详情

2. 初始化累加器变量

在进入循环之前，创建一个变量total_sum并将其初始化为0。这将是我们存储所有局部和的地方。

total_sum = 0

登录后复制

3. 遍历数据分段并累加

现在，我们可以遍历Start索引列表，为每个分段执行以下操作：

使用iloc从原始DataFrame中提取当前分段的数据。
在当前分段中，使用query()方法筛选出breed为"Wolf"的行。
对筛选出的行的Age列进行求和。
将这个局部和加到total_sum变量上。

for index, value in enumerate(Start):
    # 提取当前分段的数据
    # 注意：End[index] 确保了Start和End索引的正确匹配
    Frip = data.iloc[int(value) : End[index]]

    # 筛选并对'Age'列求和
    # pd.to_numeric确保'Age'列是数值类型，防止潜在的类型错误
    # .sum()是Pandas Series的方法，用于求和
    section_sum = pd.to_numeric(Frip.query('breed == "Wolf"').Age).sum()

    # 将当前分段的和累加到total_sum
    total_sum += section_sum

登录后复制

4. 输出最终结果

循环结束后，total_sum将包含所有符合条件的分段内Age的总和。此时，我们可以在循环外部打印total_sum。

print(total_sum)

登录后复制

完整示例代码

将以上步骤整合，得到完整的解决方案代码：

import pandas as pd

# 示例数据
data = {'Type': ['Dog', '', '', 'Cat', '', '', 'Dog', '', '','Cat'],
        'breed': ['', 'Wolf', 'bork', '','', '', '','Wolf','bork',''],
        'Age': [20, 21, 19, 18,20, 21, 19,15,16,0]
       }
data = pd.DataFrame(data)

# 识别分段的起始和结束索引
Start = (data['Type'].index[data['Type']=='Dog']).astype(int)   
End = (data['Type'].index[data['Type']=='Cat']).astype(int)

# 初始化累加器变量
total_sum = 0

# 遍历每个分段，筛选并累加
for index, value in enumerate(Start):
    # 提取当前分段数据
    Frip = data.iloc[int(value) : End[index]]

    # 筛选'breed'为'Wolf'的行，并对其'Age'列求和
    # 使用pd.to_numeric确保数据类型正确，并使用Pandas Series的.sum()方法
    section_sum = pd.to_numeric(Frip.query('breed == "Wolf"').Age).sum()

    # 将当前分段的和累加到总和中
    total_sum += section_sum   

# 打印最终的总和
print(total_sum)

登录后复制

运行结果

执行上述代码，将得到以下输出：

登录后复制

这个结果是Wolf犬种在所有Dog到Cat分段中的Age之和（第一个分段中Wolf的Age为21，第二个分段中Wolf的Age为15，21 + 15 = 36）。

注意事项与最佳实践

累加器初始化： 务必在循环开始前将累加器变量初始化为0（或适当的起始值），否则在第一次累加时会引发错误。
pd.Series.sum() vs. Python内置sum()： 对于Pandas Series对象，推荐使用Series.sum()方法。它通常比Python内置的sum()函数更高效，并且能更好地处理缺失值（NaN）。
数据类型转换： 在对列进行数值运算前，使用pd.to_numeric()是一个好习惯，可以确保列中的数据是可计算的数值类型，避免因数据类型不一致导致的错误。
索引匹配： 在使用iloc提取分段时，确保Start和End索引列表的长度和顺序能够正确匹配每个分段，即End[index]对应Start[index]所开始的分段。
条件筛选： if Frip.loc[value].str.contains('Dog').any() == True: 这样的条件判断应根据实际业务逻辑进行调整。在提供的简化示例中，我们直接基于Start和End索引进行分段，并直接在分段内查询breed == "Wolf"，这使得外部的if条件变得不必要。如果确实需要额外的分段级别筛选，应仔细设计其逻辑。