使用 Pandas 对 DataFrame 进行多列排序并自定义排序顺序

花韻仙語
发布: 2025-09-22 16:08:01
原创
1066人浏览过

使用 pandas 对 dataframe 进行多列排序并自定义排序顺序

本文旨在讲解如何使用 Pandas 库对 DataFrame 进行多列排序,并针对每一列自定义排序方式(升序或降序)。我们将详细介绍 sort_values() 方法的使用,并通过示例代码演示如何实现灵活的排序需求,帮助读者掌握在数据分析中进行高效排序的技巧。

Pandas 提供了强大的数据处理功能,其中 DataFrame 的排序是数据分析中常用的操作。当需要按照多个列进行排序,并且每列的排序方式不同时,sort_values() 方法提供了灵活的解决方案。

基本用法

sort_values() 方法允许指定一个或多个列作为排序的依据,并通过 ascending 参数控制每列的排序顺序。

import pandas as pd

# 创建一个示例 DataFrame
data = {'A': [3, 1, 2, 3, 1, 2],
        'B': [5, 4, 6, 2, 1, 3],
        'C': [7, 8, 9, 4, 5, 6]}
df = pd.DataFrame(data)

print("原始 DataFrame:")
print(df)

# 按照 A 列升序,B 列降序,C 列升序排序
df_sorted = df.sort_values(by=['A', 'B', 'C'], ascending=[True, False, True])

print("\n排序后的 DataFrame:")
print(df_sorted)
登录后复制

代码解释:

  1. import pandas as pd: 导入 Pandas 库并将其命名为 pd,这是 Pandas 的标准用法。
  2. data = {'A': [3, 1, 2, 3, 1, 2], 'B': [5, 4, 6, 2, 1, 3], 'C': [7, 8, 9, 4, 5, 6]}: 创建一个字典 data,用于构建 DataFrame。字典的键是列名('A', 'B', 'C'),值是对应列的数据列表。
  3. df = pd.DataFrame(data): 使用 pd.DataFrame() 函数,将字典 data 转换为 Pandas DataFrame 对象。
  4. df.sort_values(by=['A', 'B', 'C'], ascending=[True, False, True]): 调用 sort_values() 方法对 DataFrame 进行排序。
    • by=['A', 'B', 'C']: 指定排序的依据列。DataFrame 首先按照 'A' 列排序,然后在 'A' 列值相同的情况下,按照 'B' 列排序,以此类推。
    • ascending=[True, False, True]: 指定每一列的排序顺序。True 表示升序,False 表示降序。因此,'A' 列升序,'B' 列降序,'C' 列升序。
  5. print() 函数: 用于打印 DataFrame 的内容,方便查看排序结果。

输出结果示例:

序列猴子开放平台
序列猴子开放平台

具有长序列、多模态、单模型、大数据等特点的超大规模语言模型

序列猴子开放平台 0
查看详情 序列猴子开放平台
原始 DataFrame:
   A  B  C
0  3  5  7
1  1  4  8
2  2  6  9
3  3  2  4
4  1  1  5
5  2  3  6

排序后的 DataFrame:
   A  B  C
4  1  1  5
1  1  4  8
5  2  3  6
2  2  6  9
3  3  2  4
0  3  5  7
登录后复制

参数详解:

  • by: 一个字符串或字符串列表,指定用于排序的列名。如果指定多个列,则按照列名的顺序进行排序。
  • ascending: 一个布尔值或布尔值列表,指定每列的排序顺序。
    • 如果是一个布尔值,则所有列都按照该顺序排序。
    • 如果是一个布尔值列表,则列表的长度必须与 by 参数指定的列数相同,每个布尔值对应一列的排序顺序。
  • inplace: 一个布尔值,默认为 False。
    • 如果为 True,则直接在原始 DataFrame 上进行排序,不返回新的 DataFrame。
    • 如果为 False,则返回一个新的排序后的 DataFrame,原始 DataFrame 不变。
  • na_position: 一个字符串,指定如何处理缺失值(NaN)。可选值为 'first' 或 'last',默认为 'last',表示将缺失值放在排序的末尾。
  • ignore_index: 一个布尔值,默认为 False。如果为 True,则重新生成索引,丢弃原始索引。

注意事项:

  • sort_values() 方法默认返回一个新的 DataFrame,原始 DataFrame 不会被修改。如果需要在原始 DataFrame 上进行排序,需要设置 inplace=True。
  • 当 by 参数指定的列中存在缺失值时,可以使用 na_position 参数控制缺失值的排序位置。
  • 确保 ascending 参数的列表长度与 by 参数的列数相同,否则会引发错误。

总结:

通过 sort_values() 方法,可以灵活地对 Pandas DataFrame 进行多列排序,并自定义每列的排序方式。掌握该方法可以帮助您在数据分析过程中,更高效地整理和分析数据。 务必根据实际需求,选择合适的参数,以达到最佳的排序效果。

以上就是使用 Pandas 对 DataFrame 进行多列排序并自定义排序顺序的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
热门推荐
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号