python中怎么用pandas进行分组聚合（groupby）？-Python教程-PHP中文网

Pandas的groupby通过“分、用、合”实现数据聚合，支持多列分组与复杂聚合，结合filter、sort_values和reset_index可高效处理结果，并可通过优化数据类型、使用Dask等提升大数据性能。

python中怎么用pandas进行分组聚合（groupby）？

Pandas中的

groupby

登录后复制

操作，简单来说，就是将你的数据集根据一个或多个键（列）进行拆分，然后对每个独立的组应用一个函数（比如求和、平均值），最后将这些结果组合起来。它是我在数据分析工作中，处理聚合统计、探索数据模式时，几乎离不开的核心工具。理解并掌握它，能让你对数据有更深层次的洞察。

解决方案

groupby

登录后复制

的核心思想是“分、用、合”（Split-Apply-Combine）。当你需要对数据集中的某个类别或分组进行统计分析时，

groupby

登录后复制

就是你的首选。

首先，你需要一个DataFrame。我们创建一个简单的例子：

import pandas as pd
import numpy as np

data = {
    '城市': ['北京', '上海', '北京', '广州', '上海', '北京'],
    '商品': ['A', 'B', 'A', 'C', 'B', 'C'],
    '销售额': [100, 150, 200, 50, 120, 80],
    '利润': [20, 30, 40, 10, 25, 15]
}
df = pd.DataFrame(data)
print("原始数据：")
print(df)

登录后复制

1. 基本分组聚合

立即学习“Python免费学习笔记（深入）”；

如果你想知道每个城市的总销售额，你可以这样做：

# 按城市分组，计算销售额总和
city_sales = df.groupby('城市')['销售额'].sum()
print("\n按城市分组的总销售额：")
print(city_sales)

登录后复制

这里，

df.groupby('城市')

登录后复制

完成了“分”的步骤，它根据“城市”列的值将DataFrame拆分成了“北京”、“上海”、“广州”三个组。

['销售额'].sum()

登录后复制

则是在每个组上“应用”了求和操作，最后Pandas自动将这些结果“组合”成了一个新的Series。

你也可以对多个列进行聚合，或者使用不同的聚合函数：

# 按城市分组，计算销售额的平均值和利润的最大值
city_stats = df.groupby('城市').agg({
    '销售额': 'mean',
    '利润': 'max'
})
print("\n按城市分组的平均销售额和最大利润：")
print(city_stats)

登录后复制

常用的聚合函数包括：

sum()

登录后复制

(求和),

mean()

登录后复制

(平均值),

median()

登录后复制

(中位数),

min()

登录后复制

(最小值),

max()

登录后复制

(最大值),

count()

登录后复制

(非NaN值的数量),

size()

登录后复制

(组的大小，包含NaN),

std()

登录后复制

(标准差),

var()

登录后复制

(方差)等。你也可以直接传入字符串形式的函数名。

2. 多列分组

如果你想更细致地分析，比如想知道每个城市里，每种商品的销售额总和，那就需要多列分组：

# 按城市和商品分组，计算销售额总和
city_product_sales = df.groupby(['城市', '商品'])['销售额'].sum()
print("\n按城市和商品分组的总销售额：")
print(city_product_sales)

登录后复制

这样会生成一个MultiIndex的Series，非常适合进行多维度的分析。

Pandas Groupby如何实现多列分组与复杂聚合操作？

在实际的数据分析场景中，我们很少只对一个列进行简单的聚合。多列分组是常态，而复杂聚合则意味着我们可能需要对不同的列应用不同的聚合逻辑，甚至自定义聚合函数。

当我们用

df.groupby(['列1', '列2'])

登录后复制

进行多列分组时，Pandas会根据这些列的唯一组合来创建独立的组。这就像是先按“城市”分，再在每个城市内部按“商品”分，形成一个层级结构。结果通常是一个MultiIndex（多级索引）的Series或DataFrame，这在视觉上可能需要一点时间来适应，但它的信息量非常大。

对于复杂聚合，

agg()

登录后复制

方法提供了极大的灵活性。你可以传入一个字典，其中键是你要聚合的列名，值可以是单个聚合函数字符串、函数对象，或者一个包含多个函数字符串/函数对象的列表。

# 示例：对不同列应用不同聚合，并使用多个聚合函数
complex_agg = df.groupby('城市').agg(
    总销售额=('销售额', 'sum'), # 命名聚合，结果列名为“总销售额”
    平均利润=('利润', 'mean'), # 结果列名为“平均利润”
    商品种类=('商品', lambda x: x.nunique()) # 使用lambda表达式自定义聚合：计算商品种类数
)
print("\n复杂聚合操作：")
print(complex_agg)

登录后复制

这里我用了Python的

lambda

登录后复制

表达式来定义一个匿名函数

lambda x: x.nunique()

登录后复制

，它计算了每个组中“商品”列的唯一值数量，这比写一个完整的函数更简洁。这种自定义聚合的能力，让

groupby

登录后复制

变得异常强大。

有时，你可能需要对整个组应用一个更复杂的逻辑，而不仅仅是简单的聚合函数。这时，

apply()

登录后复制

方法就派上用场了。

apply()

登录后复制

会将整个DataFrame的子集（每个组）传递给你的函数。

# 示例：使用apply()查找每个城市销售额最高的商品
def top_product(group):
    return group.loc[group['销售额'].idxmax()]

top_selling_per_city = df.groupby('城市').apply(top_product)
print("\n每个城市销售额最高的商品信息：")
print(top_selling_per_city)

登录后复制

apply()

登录后复制

比

agg()

登录后复制

更灵活，但通常也更慢，因为它无法像

agg()

登录后复制

那样利用Pandas底层的优化。所以，在能用

agg()

登录后复制

解决问题时，优先选择

agg()

登录后复制

。只有当你的逻辑真的需要访问整个组的结构时，才考虑

apply()

登录后复制

。

处理Groupby结果时，如何高效地筛选、排序与重置索引？

当我们完成分组聚合后，得到的结果往往需要进一步的整理和分析。筛选、排序和重置索引是处理

groupby

登录后复制

结果时最常见的后续操作。

1. 筛选分组后的数据 (

filter()

登录后复制

)

有时候，我们只对满足特定条件的分组结果感兴趣。比如，我们只想看到总销售额超过某个阈值的城市。这时候，

filter()

登录后复制

方法就非常有用。它允许你根据每个组的聚合结果来决定是否保留这个组。

# 筛选出总销售额大于250的城市
filtered_cities = df.groupby('城市').filter(lambda x: x['销售额'].sum() > 250)
print("\n筛选出总销售额大于250的原始数据行：")
print(filtered_cities)

登录后复制

需要注意的是，

filter()

登录后复制

返回的是原始DataFrame中满足条件的行，而不是聚合后的结果。如果你想筛选聚合后的结果，你需要先进行聚合，然后对聚合后的DataFrame进行筛选。

# 先聚合，再筛选聚合结果
agg_result = df.groupby('城市')['销售额'].sum()
high_sales_cities_agg = agg_result[agg_result > 250]
print("\n筛选出总销售额大于250的城市及其总销售额（聚合结果）：")
print(high_sales_cities_agg)

登录后复制

2. 排序分组结果 (

sort_values()

登录后复制

)

聚合后的数据通常是按分组键的顺序排列的，但我们可能需要根据聚合值进行排序，以便快速识别最大值或最小值。

聚好用AI

可免费AI绘图、AI音乐、AI视频创作，聚集全球顶级AI，一站式创意平台

115

查看详情

# 按城市分组并计算总销售额，然后按销售额降序排列
sorted_city_sales = df.groupby('城市')['销售额'].sum().sort_values(ascending=False)
print("\n按总销售额降序排列的城市：")
print(sorted_city_sales)

登录后复制

如果你的聚合结果是一个DataFrame（比如你使用了多个聚合函数），你可以指定按哪个列进行排序：

# 按城市分组，计算销售额和利润的平均值，然后按平均销售额降序排列
avg_stats = df.groupby('城市').agg({'销售额': 'mean', '利润': 'mean'})
sorted_avg_stats = avg_stats.sort_values(by='销售额', ascending=False)
print("\n按平均销售额降序排列的城市统计：")
print(sorted_avg_stats)

登录后复制

3. 重置索引 (

reset_index()

登录后复制

)

groupby

登录后复制

操作默认会把分组键变成结果DataFrame的索引（或MultiIndex）。虽然这在很多情况下很方便，但有时我们更希望这些分组键作为普通的列存在，方便后续的筛选、合并或其他操作。

reset_index()

登录后复制

就是用来解决这个问题的。

# 按城市和商品分组计算总销售额，并将分组键转为普通列
reset_index_example = df.groupby(['城市', '商品'])['销售额'].sum().reset_index()
print("\n重置索引后的分组聚合结果：")
print(reset_index_example)

登录后复制

你也可以在

groupby

登录后复制

时就避免生成索引，通过设置

as_index=False

登录后复制

。

# 在groupby时就避免生成索引
no_index_groupby = df.groupby(['城市', '商品'], as_index=False)['销售额'].sum()
print("\ngroupby时设置as_index=False的结果：")
print(no_index_groupby)

登录后复制

在我看来，

reset_index()

登录后复制

是一个非常实用的操作，尤其是在需要将聚合结果与其他DataFrame进行合并时，或者当你希望将分组键作为普通列进行进一步的筛选或可视化时。它能让你的数据结构更扁平，更易于处理。

Groupby在大型数据集上可能面临的性能瓶颈与优化策略有哪些？

虽然

groupby

登录后复制

功能强大，但在处理非常大的数据集时，我确实遇到过性能瓶颈。了解这些瓶颈并掌握一些优化策略，对于高效地进行数据分析至关重要。

1. 内存消耗

groupby

登录后复制

在内部会创建每个组的视图或副本，尤其是在使用

apply()

登录后复制

时，如果组的数量非常多，或者每个组的数据量很大，这可能会导致大量的内存消耗。我的经验是，当数据集大到一定程度，内存溢出就成了家常便饭。

优化策略：

选择合适的聚合方法： 优先使用内置的聚合函数（如
```
sum
```
登录后复制
,
```
mean
```
登录后复制
,
```
count
```
登录后复制
），它们通常是在C语言层面实现的，效率很高。如果非要用自定义函数，尽量用
```
agg()
```
登录后复制
而不是
```
apply()
```
登录后复制
，因为
```
agg()
```
登录后复制
可以更好地利用Pandas的优化。
提前过滤和选择列： 在进行
```
groupby
```
登录后复制
之前，只保留你需要的列，并过滤掉不相关的行。减少数据量是提高性能最直接的方法。
使用
```
category
```
登录后复制
dtype： 如果你的分组键（比如“城市”、“商品”）是字符串类型，并且唯一值的数量相对较少，将其转换为
```
category
```
登录后复制
dtype可以显著减少内存占用并加速操作。Pandas在处理分类数据时效率更高。
```
df['城市'] = df['城市'].astype('category')
df['商品'] = df['商品'].astype('category')
# 再次进行groupby操作，可能会更快
```
登录后复制
分块处理（Chunking）： 对于超大型数据集，如果一次性加载会爆内存，可以考虑将数据分块加载，对每个块进行
```
groupby
```
登录后复制
，然后将各块的结果合并。这通常需要一些手动编码，但能有效解决内存问题。

apply()

登录后复制

的性能问题

前面提过，

apply()

登录后复制

虽然灵活，但效率通常不如内置聚合函数和

agg()

登录后复制

。因为它会在Python循环中迭代每个组，并且每次迭代都可能涉及Python和C代码之间的上下文切换。

优化策略：

尽量用
```
agg()
```
登录后复制
或
transform()
登录后复制
替代
apply()
登录后复制
：
- ```
agg()
```
  登录后复制
  用于返回每个组的单个聚合值。
- ```
transform()
```
  登录后复制
  用于返回一个与原始DataFrame形状相同的Series，其中每个值都是其所在组的聚合结果。这在需要将组级统计量“广播”回原始数据时非常有用，比如标准化某个组内的数据。
```
# 示例：使用transform()计算每个城市的销售额占城市总销售额的比例
df['城市销售额占比'] = df.groupby('城市')['销售额'].transform(lambda x: x / x.sum())
print("\n使用transform()计算城市销售额占比：")
print(df)
```
登录后复制
```
transform
```
登录后复制
的效率通常远高于
```
apply
```
登录后复制
，因为它能对组内的所有元素同时执行操作，而不需要显式的Python循环。

3. 数据类型不一致

在某些情况下，如果分组键的数据类型不一致（比如混合了字符串和数字），Pandas可能无法有效地优化操作，导致性能下降。确保分组键的数据类型统一且合适，能避免一些不必要的性能开销。

4. 外部库的利用

对于真正的大数据量（GB级别甚至TB级别），Pandas可能就力不从心了。这时，可以考虑使用专门为大数据设计的库：

Dask： Dask提供了与Pandas类似的API，但能够处理超出内存的数据集，并利用多核CPU或分布式集群进行计算。它的
```
dask.dataframe
```
登录后复制
模块可以无缝替代Pandas DataFrame。
Polars： Polars是一个用Rust编写的DataFrame库，以其卓越的性能和内存效率而闻名，尤其是在处理大型数据集时。它的
```
groupby
```
登录后复制
操作通常比Pandas快得多。

在我实际工作中，面对大型数据集，我往往会先尝试优化Pandas本身的用法（如