使用 Pandas 对 DataFrame 进行多列排序并自定义排序顺序-Python教程-PHP中文网

使用 Pandas 对 DataFrame 进行多列排序并自定义排序顺序

花韻仙語

发布： 2025-09-22 16:08:01

原创

1066人浏览过

使用 pandas 对 dataframe 进行多列排序并自定义排序顺序

本文旨在讲解如何使用 Pandas 库对 DataFrame 进行多列排序，并针对每一列自定义排序方式（升序或降序）。我们将详细介绍 sort_values() 方法的使用，并通过示例代码演示如何实现灵活的排序需求，帮助读者掌握在数据分析中进行高效排序的技巧。

Pandas 提供了强大的数据处理功能，其中 DataFrame 的排序是数据分析中常用的操作。当需要按照多个列进行排序，并且每列的排序方式不同时，sort_values() 方法提供了灵活的解决方案。

基本用法

sort_values() 方法允许指定一个或多个列作为排序的依据，并通过 ascending 参数控制每列的排序顺序。

import pandas as pd

# 创建一个示例 DataFrame
data = {'A': [3, 1, 2, 3, 1, 2],
        'B': [5, 4, 6, 2, 1, 3],
        'C': [7, 8, 9, 4, 5, 6]}
df = pd.DataFrame(data)

print("原始 DataFrame:")
print(df)

# 按照 A 列升序，B 列降序，C 列升序排序
df_sorted = df.sort_values(by=['A', 'B', 'C'], ascending=[True, False, True])

print("\n排序后的 DataFrame:")
print(df_sorted)

登录后复制

代码解释：

import pandas as pd: 导入 Pandas 库并将其命名为 pd，这是 Pandas 的标准用法。
data = {'A': [3, 1, 2, 3, 1, 2], 'B': [5, 4, 6, 2, 1, 3], 'C': [7, 8, 9, 4, 5, 6]}: 创建一个字典 data，用于构建 DataFrame。字典的键是列名（'A', 'B', 'C'），值是对应列的数据列表。
df = pd.DataFrame(data): 使用 pd.DataFrame() 函数，将字典 data 转换为 Pandas DataFrame 对象。
df.sort_values(by=['A', 'B', 'C'], ascending=[True, False, True]): 调用 sort_values() 方法对 DataFrame 进行排序。
- by=['A', 'B', 'C']: 指定排序的依据列。DataFrame 首先按照 'A' 列排序，然后在 'A' 列值相同的情况下，按照 'B' 列排序，以此类推。
- ascending=[True, False, True]: 指定每一列的排序顺序。True 表示升序，False 表示降序。因此，'A' 列升序，'B' 列降序，'C' 列升序。
print() 函数: 用于打印 DataFrame 的内容，方便查看排序结果。

输出结果示例：

序列猴子开放平台

具有长序列、多模态、单模型、大数据等特点的超大规模语言模型

查看详情

原始 DataFrame:
   A  B  C
0  3  5  7
1  1  4  8
2  2  6  9
3  3  2  4
4  1  1  5
5  2  3  6

排序后的 DataFrame:
   A  B  C
4  1  1  5
1  1  4  8
5  2  3  6
2  2  6  9
3  3  2  4
0  3  5  7

登录后复制

参数详解：

by: 一个字符串或字符串列表，指定用于排序的列名。如果指定多个列，则按照列名的顺序进行排序。
ascending: 一个布尔值或布尔值列表，指定每列的排序顺序。
- 如果是一个布尔值，则所有列都按照该顺序排序。
- 如果是一个布尔值列表，则列表的长度必须与 by 参数指定的列数相同，每个布尔值对应一列的排序顺序。
inplace: 一个布尔值，默认为 False。
- 如果为 True，则直接在原始 DataFrame 上进行排序，不返回新的 DataFrame。
- 如果为 False，则返回一个新的排序后的 DataFrame，原始 DataFrame 不变。
na_position: 一个字符串，指定如何处理缺失值（NaN）。可选值为 'first' 或 'last'，默认为 'last'，表示将缺失值放在排序的末尾。
ignore_index: 一个布尔值，默认为 False。如果为 True，则重新生成索引，丢弃原始索引。

注意事项：

sort_values() 方法默认返回一个新的 DataFrame，原始 DataFrame 不会被修改。如果需要在原始 DataFrame 上进行排序，需要设置 inplace=True。
当 by 参数指定的列中存在缺失值时，可以使用 na_position 参数控制缺失值的排序位置。
确保 ascending 参数的列表长度与 by 参数的列数相同，否则会引发错误。

总结：

通过 sort_values() 方法，可以灵活地对 Pandas DataFrame 进行多列排序，并自定义每列的排序方式。掌握该方法可以帮助您在数据分析过程中，更高效地整理和分析数据。务必根据实际需求，选择合适的参数，以达到最佳的排序效果。

以上就是使用 Pandas 对 DataFrame 进行多列排序并自定义排序顺序的详细内容，更多请关注php中文网其它相关文章！