从Pandas DataFrame中筛选出所有值均为非负数的对象列表-Python教程-PHP中文网

从Pandas DataFrame中筛选出所有值均为非负数的对象列表

霞舞

发布： 2025-09-27 22:50:01

原创

555人浏览过

从Pandas DataFrame中筛选出所有值均为非负数的对象列表

本教程将指导您如何利用Pandas库，从一个包含分组数据和数值的DataFrame中，高效地筛选出并列出所有其关联数值均为非负数的对象。核心方法是结合使用groupby()和all()函数，对每个对象的数值进行条件判断，确保所有值都满足指定条件。

在数据分析工作中，我们经常需要根据某些条件从大型数据集中提取特定的信息。一个常见的场景是，我们有一个dataframe，其中包含多个分组（例如，不同的“对象”），每个分组下又有一系列相关的数值。我们的目标是识别并列出那些其所有关联数值都满足特定条件（例如，所有值都非负）的分组。

数据准备与问题描述

假设我们有以下一个Pandas DataFrame，它记录了不同日期、对象及其对应的数值：

+------------+--------+-------+
|  Date      | Object | Value |
+------------+--------+-------+
| 01/05/2010 | A      |   -10 |
| 01/05/2010 | A      |     5 |
| 01/05/2010 | A      |    20 |
| 01/05/2010 | B      |     5 |
| 01/05/2010 | B      |    10 |
| 01/05/2010 | B      |    31 |
| 01/05/2010 | C      |    -2 |
| 01/05/2010 | C      |     5 |
| 01/05/2010 | C      |    10 |
| 01/01/2010 | D      |    19 |
| 01/01/2010 | D      |    10 |
| 01/01/2010 | D      |    20 |
+------------+--------+-------+

登录后复制

我们的任务是，从这个DataFrame中筛选出所有“Object”（对象）的名称，这些对象的“Value”（数值）列中没有任何一个负数。根据上述数据，期望的输出是 ['B', 'D']，因为对象A和C都包含负值。

首先，我们来创建这个示例DataFrame：

import pandas as pd

data = {
    'Date': ['01/05/2010'] * 12,
    'Object': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C', 'D', 'D', 'D'],
    'Value': [-10, 5, 20, 5, 10, 31, -2, 5, 10, 19, 10, 20]
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

登录后复制

核心解决方案：使用 groupby().all()

Pandas提供了一个非常强大且简洁的方法来解决这类分组条件筛选问题，即结合使用groupby()和布尔Series上的all()方法。

步骤1：判断每个值是否非负

首先，我们需要对Value列的每个元素进行条件判断，看它是否大于或等于0（即非负）。这会生成一个布尔Series。

# 判断每个值是否非负
is_non_negative = df['Value'].ge(0) # ge代表 "greater than or equal to"
print("\n每个值是否非负的布尔Series:")
print(is_non_negative)

登录后复制

输出将是：

0     False
1      True
2      True
3      True
4      True
5      True
6     False
7      True
8      True
9      True
10     True
11     True
Name: Value, dtype: bool

登录后复制

步骤2：按对象分组并应用 all()

接下来，我们将这个布尔Series按照Object列进行分组，并对每个分组应用all()方法。all()方法对于一个布尔Series来说，只有当该Series中的所有元素都为True时，它才返回True。这正是我们需要的，因为它能确保每个对象的所有值都满足非负条件。

# 按Object分组，并检查每个组中的所有值是否都非负
s = is_non_negative.groupby(df['Object']).all()
print("\n每个对象是否所有值都非负的布尔Series:")
print(s)

登录后复制

中间结果s将是一个布尔Series，其索引是Object的名称：

序列猴子开放平台

具有长序列、多模态、单模型、大数据等特点的超大规模语言模型

查看详情

Object
A    False
B     True
C    False
D     True
Name: Value, dtype: bool

登录后复制

从这个结果我们可以清楚地看到，对象'B'和'D'的所有值都非负，而'A'和'C'则不然。

步骤3：提取符合条件的对象列表

最后一步是从s中提取那些值为True的索引（即对象名称），并将其转换为一个Python列表。

# 提取符合条件的对象名称
result = s.index[s].tolist()
print("\n符合条件的对象列表:")
print(result)

登录后复制

最终输出：

['B', 'D']

登录后复制

完整代码示例

将上述步骤整合到一起，完整的解决方案代码如下：

import pandas as pd

data = {
    'Date': ['01/05/2010'] * 12,
    'Object': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C', 'D', 'D', 'D'],
    'Value': [-10, 5, 20, 5, 10, 31, -2, 5, 10, 19, 10, 20]
}
df = pd.DataFrame(data)

# 1. 判断每个值是否非负
is_non_negative = df['Value'].ge(0)

# 2. 按Object分组，并检查每个组中的所有值是否都非负
s = is_non_negative.groupby(df['Object']).all()

# 3. 提取符合条件的对象名称并转换为列表
result = s.index[s].tolist()

print("筛选出的所有值均为非负数的对象列表:", result)

登录后复制

常见错误与注意事项

在尝试解决这类问题时，初学者可能会遇到一些误区。例如，尝试使用df["Value"].any() > 0。这种方法通常会导致KeyError或其他非预期结果，原因如下：

any()的含义不同： any()方法用于检查布尔Series中是否存在至少一个True值。这与我们的需求（所有值都满足条件）是相反的。
比较逻辑错误： df["Value"].any()本身会返回一个布尔值（如果Value列有任何非零/非False值，则为True）。将其与数字0进行比较 (> 0) 在逻辑上是不正确的，因为它试图比较一个布尔值和一个整数，并且没有考虑到分组的概念。
缺乏分组上下文： df["Value"].any() 操作是针对整个Value列进行的，它没有将数据按Object分组，因此无法针对每个对象独立判断。

理解all()和any()在布尔Series上的区别至关重要。all()要求所有元素都为True，而any()只要求至少一个元素为True。在进行分组聚合时，将它们与groupby()结合使用可以实现强大的条件筛选功能。