Pandas DataFrame：高效筛选所有值均为非负数的组并生成列表-Python教程-PHP中文网

Pandas DataFrame：高效筛选所有值均为非负数的组并生成列表

心靈之曲

发布： 2025-09-27 23:33:01

原创

1019人浏览过

Pandas DataFrame：高效筛选所有值均为非负数的组并生成列表

本教程详细介绍了如何使用Pandas DataFrame的groupby().all()方法，高效地从数据集中筛选出所有关联值均满足特定条件（如非负数）的组，并将其名称整理成列表。通过实例代码，演示了从数据分组到条件判断再到结果提取的完整流程，帮助用户精准定位符合要求的特定数据子集。

在数据分析中，我们经常需要从大型数据集中根据复杂条件筛选出特定的数据子集。一个常见的需求是识别并提取那些在某个分组（例如“对象”）下，所有关联值都满足特定标准（例如，所有值都为非负数）的组。本教程将详细阐述如何利用pandas库的强大功能，特别是groupby().all()方法，来高效地解决这类问题。

问题描述

假设我们有一个包含日期、对象和值的数据框（DataFrame），结构如下：

+------------+--------+-------+
|  Date      | Object | Value |
+------------+--------+-------+
| 01/05/2010 | A      |   -10 |
| 01/05/2010 | A      |     5 |
| 01/05/2010 | A      |    20 |
| 01/05/2010 | B      |     5 |
| 01/05/2010 | B      |    10 |
| 01/05/2010 | B      |    31 |
| 01/05/2010 | C      |    -2 |
| 01/05/2010 | C      |     5 |
| 01/05/2010 | C      |    10 |
| 01/05/2010 | D      |    19 |
| 01/05/2010 | D      |    10 |
| 01/05/2010 | D      |    20 |
+------------+--------+-------+

登录后复制

我们的目标是编译一个列表，其中包含所有不包含任何负值的“Object”名称。根据上述数据，期望的输出是 ['B', 'D']。

错误尝试分析

初学者可能会尝试使用类似 df["Values"].any() > 0 的表达式来判断。然而，这种方法存在几个问题：

它直接作用于整个“Values”列，而不是按“Object”分组。
any() 方法通常用于检查序列中是否存在至少一个 True 值，而不是检查所有值是否都满足条件。
在布尔序列上直接进行 > 0 比较可能导致 KeyError 或不符合预期的结果，因为它不是为这种分组逻辑设计的。

解决方案：使用 groupby().all()

Pandas提供了一个优雅且高效的方法来解决这个问题，即结合使用 groupby() 和 all()。groupby() 用于按指定列进行分组，而 all() 则用于检查每个分组中的所有元素是否都满足某个布尔条件。

步骤详解

创建布尔条件序列： 首先，我们需要为“Value”列中的每个值创建一个布尔序列，判断其是否为非负数（即大于或等于零）。Pandas的 ge() (greater than or equal to) 方法非常适合此目的。

import pandas as pd
import io

# 模拟数据
data = """Date,Object,Value
01/05/2010,A,-10
01/05/2010,A,5
01/05/2010,A,20
01/05/2010,B,5
01/05/2010,B,10
01/05/2010,B,31
01/05/2010,C,-2
01/05/2010,C,5
01/05/2010,C,10
01/05/2010,D,19
01/05/2010,D,10
01/05/2010,D,20"""
df = pd.read_csv(io.StringIO(data))

# 检查每个值是否非负
is_non_negative = df['Value'].ge(0)
print("布尔条件序列 (is_non_negative):\n", is_non_negative)

登录后复制

输出示例：

表单大师AI

一款基于自然语言处理技术的智能在线表单创建工具，可以帮助用户快速、高效地生成各类专业表单。

查看详情

布尔条件序列 (is_non_negative):
 0     False
 1      True
 2      True
 3      True
 4      True
 5      True
 6     False
 7      True
 8      True
 9      True
 10     True
 11     True
Name: Value, dtype: bool

登录后复制

按对象分组并应用 all()： 接下来，我们将上述布尔序列按“Object”列进行分组，并对每个分组应用 all() 方法。all() 会返回 True，仅当该分组中的所有布尔值都为 True 时；如果其中有任何一个 False，则返回 False。
```
# 按 'Object' 分组并检查所有值是否非负
s = is_non_negative.groupby(df['Object']).all()
print("\n按对象分组后的非负判断结果 (s):\n", s)
```
登录后复制
输出示例：
```
按对象分组后的非负判断结果 (s):
 Object
 A    False
 B     True
 C    False
 D     True
Name: Value, dtype: bool
```
登录后复制
从 s 中我们可以清楚地看到，对象 'B' 和 'D' 的所有值都是非负的。
提取符合条件的“Object”名称： 最后，我们只需从 s 中筛选出值为 True 的索引（即“Object”名称），并将其转换为列表。
```
# 提取符合条件的 'Object' 名称并转换为列表
out = s.index[s].tolist()
print("\n最终结果列表 (out):\n", out)
```
登录后复制
输出：
```
最终结果列表 (out):
 ['B', 'D']
```
登录后复制

完整代码示例

import pandas as pd
import io

# 模拟数据
data = """Date,Object,Value
01/05/2010,A,-10
01/05/2010,A,5
01/05/2010,A,20
01/05/2010,B,5
01/05/2010,B,10
01/05/2010,B,31
01/05/2010,C,-2
01/05/2010,C,5
01/05/2010,C,10
01/05/2010,D,19
01/05/2010,D,10
01/05/2010,D,20"""
df = pd.read_csv(io.StringIO(data))

# 核心逻辑
# 1. 判断每个值是否大于等于0 (非负)
is_non_negative = df['Value'].ge(0)

# 2. 按 'Object' 分组，并对每个分组应用 all()，判断是否所有值都非负
s = is_non_negative.groupby(df['Object']).all()

# 3. 提取结果为 True 的 'Object' 名称并转换为列表
result_list = s.index[s].tolist()

print("原始数据框:\n", df)
print("\n符合条件（所有值非负）的对象列表:\n", result_list)

登录后复制

注意事项

ge(0) vs gt(0)： ge(0) 表示“大于或等于零”，用于判断非负数。如果你的条件是“严格大于零”，则应使用 gt(0)。
all() vs any()： all() 检查组内所有元素是否都满足条件，而 any() 检查组内是否有至少一个元素满足条件。根据具体需求选择合适的方法。
性能： 对于大型数据集，groupby().all() 是一种非常高效的Pandas操作，因为它在C语言级别进行了优化。
多条件筛选： 如果需要基于多个列的组合条件进行筛选，可以在 groupby() 之后应用更复杂的聚合函数或使用 apply() 方法。