Python Pandas：高效重塑Excel宽表数据为规范长表格式-Python教程-PHP中文网

Python Pandas：高效重塑Excel宽表数据为规范长表格式

DDD

发布： 2025-07-08 19:06:14

原创

412人浏览过

Python Pandas：高效重塑Excel宽表数据为规范长表格式

本文详细介绍了如何利用Pandas库中的lreshape函数，将包含重复列模式（如id_mXX和mprice对）的宽格式Excel表格高效地重塑为规范的长格式数据。教程通过具体代码示例，演示了如何处理列名重复以及如何利用filter方法简化列选择，从而避免使用melt函数可能导致的额外列和空值问题，极大地提升数据处理的效率和规范性。

1. 数据重塑需求概述

在数据分析工作中，我们经常会遇到宽格式（wide format）的数据表，其中包含大量重复模式的列组。例如，一个excel表格可能包含多组产品id和价格信息，如id_m00, mprice, id_m01, mprice, ..., 直到id_m46, mprice。这种格式虽然在某些情况下便于录入，但在进行数据分析和建模时，通常需要将其转换为长格式（long format），即每行代表一个独立的观测值，将所有重复的id和价格信息归并到两列：id和mprice。

传统的pandas.melt函数在处理这类复杂重塑时，可能会因为其设计逻辑而产生额外的variable列或大量的空值，导致后续清理工作量大。针对这种具有明确“成对”或“分组”列的重塑需求，pandas.lreshape提供了一种更为高效和简洁的解决方案。

2. pandas.lreshape函数简介

pandas.lreshape函数专门用于处理那些具有列表状（list-like）分组列的数据重塑。它的核心思想是将一组列（例如id_m00, id_m01）映射到一个新的列名（id），同时将另一组对应的列（例如mprice, mprice.1）映射到另一个新的列名（mprice），从而实现数据的垂直堆叠。

主要参数：

data: 需要重塑的DataFrame。
reshape_map: 一个字典，键是重塑后新的列名，值是一个列表，包含需要合并到该新列的原始列名。

3. 数据重塑实战示例

假设我们有如下的宽格式Excel数据（data.xlsx）：

立即学习“Python免费学习笔记（深入）”；

Date	id_m00	mprice	id_m01	mprice
01.01.2023	aa-bb-cc	12,05	dd-ee-fr	8,80
02.01.2023	aa-dd-ee	09,55	ff-gg-gg	7,50

我们的目标是将其转换为：

Krikey AI

查看详情

Date	id	mprice
01.01.2023	aa-bb-cc	12,05
02.01.2023	aa-dd-ee	09,55
01.01.2023	dd-ee-fr	8,80
02.01.2023	ff-gg-gg	7,50

准备模拟数据：

import pandas as pd
import io

# 模拟原始Excel数据，实际应用中替换为 pd.read_excel("file.xlsx")
data = """Date,id_m00,mprice,id_m01,mprice
01.01.2023,aa-bb-cc,12.05,dd-ee-fr,8.80
02.01.2023,aa-dd-ee,9.55,ff-gg-gg,7.50
"""
# 注意：当Pandas读取Excel时，如果存在重复列名，会自动重命名为 mprice, mprice.1, mprice.2 等
# 这里为了模拟，我们手动创建DataFrame，并模拟Pandas的列名处理
df_raw = pd.read_csv(io.StringIO(data), sep=',')

# 模拟pandas读取Excel后，重复列名被自动重命名的情况
# 手动调整列名以匹配 lreshape 示例中的 mprice, mprice.1
df_raw.columns = ['Date', 'id_m00', 'mprice', 'id_m01', 'mprice.1']

print("原始DataFrame：")
print(df_raw)

登录后复制

使用lreshape进行重塑：

lreshape的关键在于构建reshape_map。我们需要识别出所有属于“id”组的列和所有属于“mprice”组的列。由于Pandas在读取Excel时会自动处理重复列名（如将第二个mprice重命名为mprice.1），我们可以利用这一特性来简化列的选择。

# 方案一：直接使用filter选择列（推荐）
# 假设df是通过pd.read_excel("file.xlsx")读取的，Pandas会自动处理重复列名
# 此时，mprice列会变为 'mprice', 'mprice.1', 'mprice.2' ...
# df = pd.read_excel("file.xlsx") # 实际应用中取消注释

# 识别所有id_mXX开头的列
id_cols = df_raw.filter(like="id_m").columns
# 识别所有包含'price'的列（这里会包含mprice和mprice.1等）
price_cols = df_raw.filter(like="price").columns

# 构建lreshape的映射字典
reshape_map = {
    "id": id_cols.tolist(),
    "mprice": price_cols.tolist()
}

out_df = pd.lreshape(df_raw, reshape_map)

print("\n重塑后的DataFrame (方案一)：")
print(out_df)

# 确保mprice列为数值类型
out_df['mprice'] = out_df['mprice'].astype(float)
print("\n重塑后并转换mprice类型：")
print(out_df)

登录后复制

代码解析：

df_raw.filter(like="id_m").columns: 这行代码使用filter方法筛选出所有列名中包含“id_m”的列，并获取它们的名称列表。这非常适合处理id_m00, id_m01, ..., id_m46这类有规律的列名。
df_raw.filter(like="price").columns: 同样地，筛选出所有列名中包含“price”的列。由于Pandas读取Excel时会处理重复列名（例如mprice和mprice.1），这个模式可以有效地捕获所有价格列。
reshape_map: 这个字典是lreshape的核心。它告诉Pandas：
- 将id_cols列表中的所有列合并到新的id列下。
- 将price_cols列表中的所有列合并到新的mprice列下。
- lreshape会根据原始列的顺序进行配对，例如id_m00会与mprice（第一个）配对，id_m01会与mprice.1配对，以此类推。
pd.lreshape(df_raw, reshape_map): 执行重塑操作，返回一个新的DataFrame。

4. 注意事项与总结

列名处理： pandas.read_excel在遇到重复列名时，会自动为后续的重复列添加数字后缀（如mprice.1, mprice.2）。lreshape正是利用了这一特性，通过filter(like='...')可以方便地选择所有相关的列。如果你的数据来源不是Excel，或者列名没有自动重命名，你可能需要手动调整列名，或者在reshape_map中明确列出所有原始列名。
lreshape vs. melt：
- melt更通用，可以将一个或多个标识符列（id_vars）之外的所有或指定列（value_vars）转换为长格式，通常会生成variable和value列。它适用于将多个值列堆叠成一个值列的场景。
- lreshape则更专注于处理具有固定分组的列，它允许你同时重塑多个相关的列组（例如id和price），并将它们分别映射到新的目标列中，而不会引入额外的variable列，从而得到更干净、更直接的长格式数据。
数据类型： 重塑后，新的列（如mprice）的数据类型可能需要手动转换为数值类型，如果原始数据中包含逗号作为小数分隔符，还需要在读取时或转换时进行处理（例如使用str.replace(',', '.')和astype(float)）。

通过pandas.lreshape，我们可以高效、准确地将复杂的宽格式数据转换为规范的长格式，这对于后续的数据清洗、分析和可视化至关重要，能够显著提升数据处理的效率和质量。

以上就是Python Pandas：高效重塑Excel宽表数据为规范长表格式的详细内容，更多请关注php中文网其它相关文章！