Pandas数据帧按自定义顺序排序：以月份为例实现精确控制-Python教程-PHP中文网

Pandas数据帧按自定义顺序排序：以月份为例实现精确控制

霞舞

发布： 2025-11-10 10:52:27

原创

455人浏览过

pandas数据帧按自定义顺序排序：以月份为例实现精确控制

本文详细介绍了如何在Python Pandas中对数据帧进行自定义顺序排序，特别是针对月份等具有内在顺序但字符串表示时默认按字母排序的场景。通过将目标列转换为Pandas的Categorical类型，并指定精确的类别顺序，我们可以确保数据按照期望的逻辑顺序排列，从而解决传统字符串排序无法满足的业务需求。

在数据分析和处理中，我们经常需要对数据帧（DataFrame）中的数据进行排序。Pandas提供了强大的sort_values()方法，但当排序键是字符串类型，且其内在逻辑顺序与字母顺序不符时，就会遇到挑战。一个典型的例子就是月份数据：默认情况下，'April' 会排在 'February' 之前，这显然不符合我们按时间顺序（一月、二月、三月...）排列的预期。本教程将深入探讨这一问题，并提供一个优雅且高效的解决方案。

问题剖析：月份排序的困境

考虑以下包含月份和销售额的示例数据：

import pandas as pd

month = ['January', 'February', 'March', 'April', 'January', 'February', 'March', 'April']
sales = [10, 100, 130, 145, 13409, 670, 560, 40]
data = {'month': month, 'sales': sales}
df = pd.DataFrame(data)

print("原始数据帧:")
print(df)

登录后复制

输出：

原始数据帧:
      month  sales
0   January     10
1  February    100
2     March    130
3     April    145
4   January  13409
5  February    670
6     March    560
7     April     40

登录后复制

如果我们直接尝试对 month 列进行排序，Pandas会按照字符串的字母顺序进行：

# 尝试直接按月份排序（默认字母顺序）
df_sorted_alphabetically = df.sort_values(by='month', ascending=True)
print("\n按字母顺序排序后的数据帧:")
print(df_sorted_alphabetically)

登录后复制

输出：

按字母顺序排序后的数据帧:
      month  sales
3     April    145
7     April     40
1  February    100
5  February    670
0   January     10
4   January  13409
2     March    130
6     March    560

登录后复制

可以看到，'April' 排在了 'February' 之前，这并非我们所期望的月份时间顺序。

解决方案：利用Pandas Categorical类型

Pandas的Categorical（分类）数据类型是解决此类问题的理想工具。它允许我们定义一个列的唯一值集合（类别），并指定这些类别的特定顺序。一旦列被转换为Categorical类型并设定了顺序，所有基于该列的排序或分组操作都将遵循这个自定义顺序。

序列猴子开放平台

具有长序列、多模态、单模型、大数据等特点的超大规模语言模型

查看详情

以下是实现自定义月份排序的步骤：

定义期望的顺序列表： 创建一个包含所有月份名称，并按照期望的顺序排列的列表。
将目标列转换为Categorical类型： 使用pd.Categorical()函数或astype('category')方法，并传入定义好的顺序列表作为categories参数，同时设置ordered=True以表明这些类别具有内在顺序。
执行排序操作： 对转换后的数据帧使用sort_values()方法。

# 步骤1：定义期望的月份顺序
months_order = ['January', 'February', 'March', 'April', 'May', 'June', 
                'July', 'August', 'September', 'October', 'November', 'December']

# 步骤2：将'month'列转换为Categorical类型，并指定顺序
# 注意：即使数据中不包含所有月份，也建议提供完整的月份列表作为categories，
# 以确保未来数据扩展时顺序的稳定性。
df['month'] = pd.Categorical(df['month'], categories=months_order, ordered=True)

# 步骤3：对数据帧进行排序
df_sorted_by_month = df.sort_values(by=['month'], ascending=True, inplace=False) # inplace=False 返回新DataFrame

print("\n按自定义月份顺序排序后的数据帧:")
print(df_sorted_by_month)

登录后复制

输出：

按自定义月份顺序排序后的数据帧:
      month  sales
0   January     10
4   January  13409
1  February    100
5  February    670
2     March    130
6     March    560
3     April    145
7     April     40

登录后复制

现在，数据帧已按照“January”、“February”、“March”、“April”的正确时间顺序排列。

进阶应用与注意事项

对groupby()操作的影响： 一旦列被转换为有序的Categorical类型，后续的groupby()操作也会自然地按照这个自定义顺序进行分组和聚合，无需额外的排序步骤。

# 转换为Categorical后，groupby也会保持顺序
grouped_data = df.groupby('month')['sales'].mean()
print("\n按月份分组并计算平均销售额（顺序已保持）:")
print(grouped_data)

登录后复制

输出：

按月份分组并计算平均销售额（顺序已保持）:
month
January     6709.5
February     385.0
March        345.0
April         92.5
Name: sales, dtype: float64

登录后复制

可以看到，分组结果的索引（月份）也是按正确顺序排列的。

内存效率： 对于具有少量重复值（类别）但数据量很大的列，Categorical类型可以显著减少内存占用，因为它内部存储的是整数代码而不是重复的字符串。
通用性： 这种方法不仅适用于月份，也适用于任何需要自定义排序的场景，例如：
- 星期几（Monday, Tuesday...）
- 教育程度（小学, 初中, 高中, 大学...）
- 产品等级（A+, A, B, C...）
- 调查问卷的满意度（非常不满意, 不满意, 一般, 满意, 非常满意）
只需根据实际需求创建相应的categories列表即可。
categories参数的重要性： 在定义Categorical时，categories列表应包含所有可能的类别，即使当前数据中不包含某些类别。这可以确保即使将来数据更新包含新类别时，排序逻辑也能保持一致。如果数据中存在categories列表之外的值，它们将被视为NaN。

总结

通过将Pandas数据帧中的目标列转换为有序的Categorical类型，我们能够轻松解决字符串排序与业务逻辑顺序不符的问题。这种方法不仅提供了精确的排序控制，还可能带来内存效率的提升，并确保后续groupby等操作能够保持预期的顺序。掌握这一技巧，将使您在处理具有自定义顺序要求的数据时更加游刃有余。

以上就是Pandas数据帧按自定义顺序排序：以月份为例实现精确控制的详细内容，更多请关注php中文网其它相关文章！