Pandas Groupby 与 Lambda 函数：统计非零值的正确方法-Python教程-PHP中文网

Pandas Groupby 与 Lambda 函数：统计非零值的正确方法

花韻仙語

发布： 2025-10-01 16:33:19

原创

866人浏览过

pandas groupby 与 lambda 函数：统计非零值的正确方法

本文旨在帮助读者理解 Pandas 中 groupby 函数结合 lambda 表达式的正确用法，特别是针对统计分组后非零值的场景。我们将通过一个实际案例，解释为何 sum() 方法能够得到正确结果，而 count() 方法则不然，并深入探讨 lambda 函数在 groupby 中的工作原理。

在 Pandas 中，groupby 方法结合 agg 函数和 lambda 表达式可以实现灵活的数据聚合操作。然而，在统计分组后非零值的数量时，初学者可能会误用 count() 方法。本文将通过一个具体的例子，解释为什么应该使用 sum() 而不是 count() 来获得正确的结果。

问题背景

假设我们有一个包含房间号（Room）和数值（Value）的 DataFrame，目标是按照房间号分组，并统计每个房间中数值大于零的次数。

示例代码

import pandas as pd

data = [['a', 3], ['a', 3], ['b', 1], ['a', 0], ['b', 0]]
df = pd.DataFrame(data, columns=['Room', 'Value'])
print(df)

登录后复制

以上代码创建了一个 DataFrame，如下所示：

  Room  Value
0    a      3
1    a      3
2    b      1
3    a      0
4    b      0

登录后复制

错误的尝试

最初，我们可能会尝试使用 count() 方法来统计非零值的数量：

sum_df = df.groupby(['Room']).agg(
    sumValue=('Value', 'sum'),
    nonBlankOccasion=('Value', lambda x: (x > 0).count())
).reset_index()
print(sum_df)

登录后复制

这段代码的输出结果如下：

  Room  sumValue  nonBlankOccasion
0    a         6                 3
1    b         1                 2

登录后复制

这个结果是错误的，因为 nonBlankOccasion 列统计的是每个房间的总记录数，而不是非零值的数量。

正确的解法

正确的做法是使用 sum() 方法：

创客贴设计

创客贴设计，一款智能在线设计工具，设计不求人，AI助你零基础完成专业设计！

查看详情

sum_df = df.groupby(['Room']).agg(
    sumValue=('Value', 'sum'),
    nonBlankOccasion=('Value', lambda x: (x > 0).sum())
).reset_index()
print(sum_df)

登录后复制

这段代码的输出结果如下：

  Room  sumValue  nonBlankOccasion
0    a         6                 2
1    b         1                 1

登录后复制

这个结果是正确的，nonBlankOccasion 列准确地统计了每个房间中数值大于零的次数。

原因分析

关键在于理解 lambda 函数接收到的参数 x 是什么。在 groupby 和 agg 的上下文中，lambda 函数接收到的 x 是一个 Pandas Series，它包含了每个分组中的 Value 列的值。

为了更好地理解这一点，我们可以打印出 x > 0 的结果：

sum_df = df.groupby(['Room']).agg(
    nonBlankOccasion=('Value', lambda x: print(x > 0))
).reset_index()

登录后复制

输出结果如下：

0     True
1     True
3    False
Name: Value, dtype: bool
2     True
4    False
Name: Value, dtype: bool

登录后复制

可以看到，x > 0 返回的是一个布尔类型的 Series，其中 True 表示对应的值大于零，False 表示对应的值小于等于零。

count() 方法统计的是 Series 中元素的总数，也就是分组的长度。因此，它会返回每个房间的总记录数，而不是非零值的数量。
sum() 方法会将 True 视为 1，False 视为 0，然后计算 Series 中所有元素的总和。因此，它会返回 Series 中 True 值的数量，也就是非零值的数量。

总结

在使用 Pandas groupby 和 agg 函数结合 lambda 表达式进行数据聚合时，需要仔细考虑 lambda 函数接收到的参数类型和期望的计算结果。在统计分组后非零值的数量时，应该使用 sum() 方法，而不是 count() 方法。

注意事项