Pandas中怎样实现数据的堆叠与解堆叠？-Python教程-PHP中文网

pandas中stack()方法的本质是将非索引列标签转换为行索引的一部分。1. stack()默认将所有非索引列名作为最内层新索引级别，生成带有multiindex的series；2. 堆叠时自动丢弃含nan值的行，可能造成数据丢失；3. 可通过level参数指定堆叠特定列级别，但单级列默认行为最常见。unstack()在场景上特别适用于：1. 从长格式恢复宽格式数据，如将指标类型转为独立列；2. 按分类维度横向比较数据，如不同城市销售额对比；3. 为特定图表准备数据，简化绘图代码。操作时需注意：1. nan值处理需谨慎，堆叠前应检查或填充缺失；2. 多级索引level参数易错，可能导致结果偏差或keyerror；3. 大数据集下内存和计算效率问题，宽dataframe可能占用大量资源；4. 数据类型强制转换可能影响数值运算；5. 索引名和列名需重命名以提高可读性。

Pandas中怎样实现数据的堆叠与解堆叠？

在Pandas里，数据的堆叠（stack）和解堆叠（unstack）是两种非常核心的重塑数据的方法，它们能帮助你灵活地在“长格式”和“宽格式”之间转换数据。简单来说，堆叠就是把列“压”成行，通常会生成一个多级索引；而解堆叠则是把索引的某个级别“展开”成新的列。这两种操作在数据清洗、预处理以及为特定分析或可视化工具准备数据时，简直是家常便饭。

解决方案

Pandas中实现数据的堆叠与解堆叠，主要依赖于DataFrame的

stack()

登录后复制

和

unstack()

登录后复制

方法。

首先，我们创建一个示例DataFrame：

import pandas as pd
import numpy as np

# 创建一个示例DataFrame
data = {
    '城市': ['北京', '上海', '广州', '深圳'],
    '年份': [2020, 2020, 2021, 2021],
    '销售额': [100, 120, 90, 110],
    '利润': [20, 25, 18, 22]
}
df = pd.DataFrame(data)
df = df.set_index(['城市', '年份']) # 设置一个多级索引
print("原始DataFrame:")
print(df)

# 堆叠操作 (stack)
# 默认情况下，stack会将最内层的列（这里是'销售额'和'利润'）转换为行，形成新的索引层
stacked_df = df.stack()
print("\n堆叠后的DataFrame (stack):")
print(stacked_df)
print(type(stacked_df)) # 注意，stack默认返回的是一个Series

# 如果想保留为DataFrame，可以指定level，或者在stack后reset_index
# 例如，我们想堆叠'销售额'和'利润'这两列，并让它们成为新的列名，而不是索引的一部分
# 这通常需要先进行melt或者在stack后进行一些操作
# 但最直接的堆叠就是上面那样，将列名变为索引的一部分

# 解堆叠操作 (unstack)
# unstack默认会将最内层的索引级别（这里是'年份'）转换为列
unstacked_df_default = stacked_df.unstack()
print("\n解堆叠后的DataFrame (unstack，默认):")
print(unstacked_df_default)

# 解堆叠指定级别：将'城市'这个索引级别解堆叠为列
unstacked_df_city = df.unstack(level='城市')
print("\n解堆叠后的DataFrame (unstack，指定level='城市'):")
print(unstacked_df_city)

# 解堆叠指定级别：将'年份'这个索引级别解堆叠为列
unstacked_df_year = df.unstack(level='年份')
print("\n解堆叠后的DataFrame (unstack，指定level='年份'):")
print(unstacked_df_year)

登录后复制

Pandas中的堆叠操作（stack）具体是如何工作的？

stack()

登录后复制

方法的本质，是将DataFrame的列标签“旋转”成行索引的一部分。想象一下，你有一张表格，其中有些信息是按列组织的（比如不同产品的销售额、利润），但你更希望它们能作为行里的一个类别来处理。

stack()

登录后复制

就是做这个的。

当你不给

stack()

登录后复制

传递任何参数时，它会默认将DataFrame中所有非索引的列名作为最内层的新索引级别。结果通常是一个Series，它的索引会变成一个MultiIndex（多级索引），包含了原始的行索引以及新转换过来的列名。如果原始数据中某个单元格是

NaN

登录后复制

，那么堆叠后，对应的行通常会被直接丢弃。这个“丢弃

NaN

登录后复制

”的特性，有时候很方便，因为它能自动帮你清理掉一些不完整的数据点；但有时候也可能导致信息丢失，这得看你的具体需求了。

举个例子，如果你的数据长这样：

城市	年份	销售额	利润
北京	2020	100	20
上海	2020	120	25

经过

set_index(['城市', '年份'])

登录后复制

后，再

stack()

登录后复制

，你会得到类似：

城市  年份
北京  2020  销售额    100
            利润      20
上海  2020  销售额    120
            利润      25
dtype: int64

登录后复制

你看，原来的“销售额”和“利润”列，现在成了最内层的索引，这对于后续的数据分组、聚合操作，或者是转换为特定“长格式”数据（很多统计绘图库比如Seaborn就偏爱这种格式）非常有用。如果你想堆叠特定的列，而不是所有列，你可能需要先选择这些列，或者在堆叠后再进行一些重塑。它也可以接受一个

level

登录后复制

参数，用于指定将哪个级别的列（如果是多级列）堆叠起来，但对于单级列，默认行为是最常见的。

Pandas的解堆叠操作（unstack）在哪些场景下特别有用？

unstack()

登录后复制

是

stack()

登录后复制

的逆操作，它能把DataFrame（或Series）的某个索引级别“展开”成新的列。这在很多场景下都非常实用，尤其当你需要从“长格式”数据回到“宽格式”数据时，或者为了更直观地比较不同类别的数据时。

一些常见的应用场景包括：

从长格式数据恢复宽格式： 很多数据分析和机器学习模型，或者一些特定的报表需求，可能更偏爱宽格式数据。比如，你通过
```
stack()
```
登录后复制
或者其他方式得到了一个包含“指标类型”（比如销售额、利润）作为索引级别的数据，现在你想把这些指标类型变回独立的列，
```
unstack()
```
登录后复制
就能派上用场。
```
# 假设 stacked_df 是之前堆叠后的Series
# 它有三级索引：城市、年份、以及原始的列名（销售额/利润）
# unstack()默认会解堆叠最内层的索引，也就是销售额/利润
unstacked_df = stacked_df.unstack()
print(unstacked_df)
# 结果会是：
#           销售额  利润
# 城市 年份
# 北京 2020   100   20
# 上海 2020   120   25
# ...
```
登录后复制
这样，你又回到了最初那种“销售额”和“利润”是独立列的宽格式。

AI Sofiya
一款AI驱动的多功能工具

109

查看详情

按某个分类维度进行数据比较： 假设你有一个多级索引的数据，其中一个级别代表了不同的类别（比如不同产品、不同区域）。如果你想把这些类别作为列，方便横向比较它们在其他指标上的表现，

unstack()

登录后复制

就非常直观。

# 比如我们想比较不同城市在不同年份的销售额和利润
# 原始df的索引是 ['城市', '年份']
# unstack(level='城市') 会把城市从索引变成列
unstacked_by_city = df.unstack(level='城市')
print(unstacked_by_city)
# 结果会是：
#         销售额          利润
# 城市     北京   上海   广州   深圳   北京   上海   广州   深圳
# 年份
# 2020  100  120  NaN  NaN   20   25  NaN  NaN
# 2021  NaN  NaN   90  110  NaN  NaN   18   22

登录后复制

这样你就能一眼看出北京、上海、广州、深圳在不同年份的销售额和利润对比了。这对于制作交叉表或者进行多维度分析非常方便。

为特定图表类型准备数据： 某些绘图库或图表类型可能要求数据是特定的宽格式。例如，如果你想用Matplotlib绘制一个多系列柱状图，每个系列代表一个城市，那么将城市从索引解堆叠到列，通常能简化绘图代码。

总的来说，

unstack()

登录后复制

是你在需要将索引中的分类信息提升到列级别时，最直接也最强大的工具。

堆叠与解堆叠操作时有哪些常见的陷阱或性能注意事项？

虽然

stack()

登录后复制

和

unstack()

登录后复制

功能强大，但在实际使用中，确实有一些需要注意的地方，否则可能会遇到意想不到的结果，甚至性能问题。

NaN值的处理： 这是最常见的“坑”之一。
- ```
stack()
```
  登录后复制
  默认会丢弃所有包含
```
NaN
```
  登录后复制
  值的行。如果你不希望丢失这些信息，你可能需要在堆叠之前进行
```
fillna()
```
  登录后复制
  操作，或者在堆叠之后检查数据完整性。
- ```
unstack()
```
  登录后复制
  则相反，如果某个索引组合在解堆叠后没有对应的值，它会引入
```
NaN
```
  登录后复制
  。这通常是预期的行为，但如果引入了大量的
```
NaN
```
  登录后复制
  ，可能会影响后续的计算或存储效率。
多级索引的复杂性： 当处理多级索引时，
```
level
```
登录后复制
参数的使用至关重要。
- ```
stack(level=N)
```
  登录后复制
  ：会将指定级别（N可以是整数位置或级别名称）的列堆叠起来。如果列本身是多级列，这会更复杂。
- ```
unstack(level=N)
```
  登录后复制
  ：会将指定索引级别的数据展开成列。如果你不指定
```
level
```
  登录后复制
  ，
```
unstack()
```
  登录后复制
  默认会操作最内层的索引级别。搞错
```
level
```
  登录后复制
  会导致结果和你预期的完全不同，甚至抛出
```
KeyError
```
  登录后复制
  ，因为你尝试解堆叠一个不存在的级别。
- 尝试解堆叠多个级别时，例如
```
df.unstack(level=[0, 1])
```
  登录后复制
  ，会使得结果DataFrame的列名变得非常复杂，形成一个多级列，这在后续操作中可能不太方便。
性能考量： 对于非常大的数据集，
```
stack()
```
登录后复制
和
```
unstack()
```
登录后复制
可能会消耗较多的内存和计算时间。
- 内存使用：
```
unstack()
```
  登录后复制
  将行转换为列，如果转换的级别包含大量唯一值，可能导致生成一个非常宽的DataFrame，占用大量内存。尤其是在引入大量
```
NaN
```
  登录后复制
  时，虽然Pandas对稀疏数据有优化，但仍然可能成为瓶颈。
- 计算效率： 重塑操作涉及数据复制和索引重建，这本身就是计算密集型的。如果你的数据量达到百万甚至千万级别，频繁地进行堆叠和解堆叠，或者在循环中执行这些操作，都可能导致性能下降。
- 替代方案： 在某些聚合场景下，
```
pivot_table
```
  登录后复制
  可能比
```
groupby().unstack()
```
  登录后复制
  更高效，因为它能一步完成聚合和重塑。对于简单的列到行的转换，如果不需要生成MultiIndex，
```
melt()
```
  登录后复制
  函数可能更直观和高效。
数据类型强制转换： 当你堆叠不同数据类型的列时，生成的Series或DataFrame可能会被强制转换为一个能容纳所有数据类型的通用类型（例如，如果堆叠了整数和字符串，结果可能变成
```
object
```
登录后复制
类型），这可能会影响后续的数值计算。
索引名和列名： 堆叠和解堆叠后，新生成的索引级别或列名可能会是默认的数字或者原始列名，可能不够语义化。记得在操作后使用
```
rename_axis()
```
登录后复制
或直接修改
```
df.columns
```
登录后复制
来赋予它们有意义的名称，以提高代码可读性。