如何从DataFrame中筛选出所有值均满足特定条件的组-Python教程-PHP中文网

如何从DataFrame中筛选出所有值均满足特定条件的组

碧海醫心

发布： 2025-09-27 23:08:01

原创

630人浏览过

如何从dataframe中筛选出所有值均满足特定条件的组

本教程详细介绍了如何使用Pandas库从DataFrame中高效筛选出所有关联值均满足特定条件（例如，所有值均非负）的项目列表。文章通过一个具体示例，演示了如何结合使用groupby()和all()方法来实现这一目标，并提供了清晰的代码示例和注意事项，帮助读者掌握数据筛选技巧。

在数据分析工作中，我们经常需要从复杂的数据集中提取符合特定条件的子集。一个常见的场景是，我们需要识别那些所有关联记录都满足某种条件的实体。例如，在一个包含“对象”和“值”的DataFrame中，我们可能需要找出所有其“值”列中没有任何负数的“对象”。

示例数据

考虑以下DataFrame，其中包含日期、对象和值：

import pandas as pd
import io

data = """Date,Object,Value
01/05/2010,A,-10
01/05/2010,A,5
01/05/2010,A,20
01/05/2010,B,5
01/05/2010,B,10
01/05/2010,B,31
01/05/2010,C,-2
01/05/2010,C,5
01/05/2010,C,10
01/05/2010,D,19
01/05/2010,D,10
01/05/2010,D,20
"""
df = pd.read_csv(io.StringIO(data))
print(df)

登录后复制

输出DataFrame：

         Date Object  Value
0  01/05/2010      A    -10
1  01/05/2010      A      5
2  01/05/2010      A     20
3  01/05/2010      B      5
4  01/05/2010      B     10
5  01/05/2010      B     31
6  01/05/2010      C     -2
7  01/05/2010      C      5
8  01/05/2010      C     10
9  01/05/2010      D     19
10 01/05/2010      D     10
11 01/05/2010      D     20

登录后复制

我们的目标是提取一个列表，包含所有“对象”中其所有“Value”均非负（即大于或等于0）的项。根据上述数据，期望的结果是 ['B', 'D']。

错误的尝试

初学者可能会尝试使用类似 df["Value"].any() > 0 的表达式。然而，any()方法通常用于检查Series中是否存在任何True值，或者在DataFrame中检查是否存在任何非零或非空值。直接在整个“Value”列上使用这种条件判断，并不能按组进行检查，且可能导致 KeyError 等错误，因为它不是用于分组聚合的正确方法。

正确的解决方案：使用 groupby().all()

Pandas提供了一种优雅且高效的方法来解决这类问题，即结合使用 groupby() 和 all() 方法。

步骤一：创建布尔 Series

首先，我们需要创建一个布尔 Series，用于标记每个“Value”是否满足非负条件。ge(0) 方法（greater than or equal to 0）可以帮助我们实现这一点。

# 检查每个值是否大于或等于0
is_non_negative = df['Value'].ge(0)
print("每个值是否非负：\n", is_non_negative)

登录后复制

输出 is_non_negative：

0     False
1      True
2      True
3      True
4      True
5      True
6     False
7      True
8      True
9      True
10     True
11     True
Name: Value, dtype: bool

登录后复制

步骤二：按对象分组并应用 all()

有道小P

有道小P，新一代AI全科学习助手，在学习中遇到任何问题都可以问我。

查看详情

接下来，我们将这个布尔 Series 按照“Object”列进行分组，并对每个组应用 all() 方法。all() 方法在布尔 Series 上使用时，会检查组内所有值是否都为 True。如果一个组中的所有“Value”都非负，那么该组对应的 all() 结果将为 True。

# 按'Object'分组，并检查每个组中所有值是否都为True (即非负)
s = is_non_negative.groupby(df['Object']).all()
print("\n每个对象是否所有值均非负：\n", s)

登录后复制

输出 s：

Object
A    False
B     True
C    False
D     True
Name: Value, dtype: bool

登录后复制

从 s 中可以看出，对象 'B' 和 'D' 的所有值都是非负的。

步骤三：提取符合条件的对象的列表

最后，我们可以利用 s 这个布尔 Series 的索引来提取符合条件的“Object”名称，并将其转换为列表。

# 提取结果为True的对象的索引，并转换为列表
out = s.index[s].tolist()
print("\n符合条件的对象列表：", out)

登录后复制

最终输出：

符合条件的对象列表： ['B', 'D']

登录后复制

这正是我们期望的结果。

完整代码示例

将上述步骤整合到一起，完整的解决方案如下：

import pandas as pd
import io

data = """Date,Object,Value
01/05/2010,A,-10
01/05/2010,A,5
01/05/2010,A,20
01/05/2010,B,5
01/05/2010,B,10
01/05/2010,B,31
01/05/2010,C,-2
01/05/2010,C,5
01/05/2010,C,10
01/05/2010,D,19
01/05/2010,D,10
01/05/2010,D,20
"""
df = pd.read_csv(io.StringIO(data))

# 1. 检查每个值是否大于或等于0
is_non_negative = df['Value'].ge(0)

# 2. 按'Object'分组，并检查每个组中所有值是否都为True
s = is_non_negative.groupby(df['Object']).all()

# 3. 提取结果为True的对象的索引，并转换为列表
result_objects = s.index[s].tolist()

print("原始DataFrame:\n", df)
print("\n每个对象是否所有值均非负:\n", s)
print("\n符合条件的对象列表:", result_objects)

登录后复制

注意事项

groupby().all() 与 groupby().any()：
- groupby().all() 用于判断一个组中的所有元素是否都满足条件。如果有一个不满足，则结果为 False。
- groupby().any() 用于判断一个组中是否有至少一个元素满足条件。如果有一个满足，则结果为 True。
- 根据具体需求选择合适的方法。
条件灵活性： 这里的条件是“非负”，但你可以替换为任何其他布尔条件，例如 df['Value'] > 10 (大于10), df['Value'].between(5, 15) (在5到15之间), 或者更复杂的逻辑表达式。
性能： 对于大型DataFrame，groupby() 操作是Pandas中高度优化的操作之一，通常效率很高。

总结

通过结合使用Pandas的 groupby() 和 all() 方法，我们可以有效地从DataFrame中筛选出那些所有关联记录都满足特定条件的组。这种方法不仅代码简洁，而且在处理大量数据时表现出良好的性能。掌握这一技巧对于进行复杂的数据筛选和聚合操作至关重要。

以上就是如何从DataFrame中筛选出所有值均满足特定条件的组的详细内容，更多请关注php中文网其它相关文章！

大家都在看：

使用Pandas与正则表达式解析复杂CSV文件头 Python中内存生成CSV并直接上传至API：避免临时文件存储 Pandas读取CSV文件时Unicode编码错误的实用解决方案在Python中高效地生成内存CSV并上传至API Python：内存中生成CSV对象并POST到API