Pandas 数据处理:从多列多行合并特定数据到单行

碧海醫心
发布: 2025-09-03 20:20:01
原创
758人浏览过

pandas 数据处理:从多列多行合并特定数据到单行

本文旨在解决 Pandas DataFrame 中,将多列多行数据根据特定条件筛选并合并到单行的问题。通过 stack、where、dropna 等 Pandas 函数的组合应用,可以高效地实现数据转换,提取出符合条件的关键信息,最终生成目标 DataFrame。文章将提供详细的步骤和代码示例,帮助读者掌握这种数据处理技巧。

在数据分析和处理中,经常会遇到需要从多列多行的数据中提取特定信息,并将这些信息合并到单行的情况。例如,在处理包含多个属性和对应值的表格数据时,我们可能需要根据某些条件筛选出有效的属性值,并将它们组合成一个新的数据行。Pandas 提供了强大的数据处理功能,可以帮助我们高效地完成这类任务。

以下介绍一种使用 Pandas 实现该目标的常用方法,主要依赖于 stack、where、dropna 等函数的组合。

步骤详解与代码示例

假设我们有如下 DataFrame (Table A):

import pandas as pd
import numpy as np

data = {'Position A': [-1, 3, -1, -1],
        'Name A': ['tortise', 'sprite', 'nope', 'nope'],
        'Position B': [-1, 2, -1, -1],
        'Name B': ['monkey', 'coffee', 'nope', 'nope'],
        'Position C': [2, -1, -1, -1],
        'Name C': ['coca cola', 'bird', 'fish', 'nope'],
        'Position D': [-1, -1, 5, -1],
        'Name D': ['slug', 'monkey', 'root beer', 'nope'],
        'Position E': [-1, -1, 1, -1],
        'Name E': ['rooster', 'ostrich', 'tea', 'nope']}
df = pd.DataFrame(data)

print("原始 DataFrame (Table A):\n", df)
登录后复制

我们的目标是从这个 DataFrame 中提取出 Position 值不等于 -1 对应的 Name 值,并将这些 Name 值合并成一个新的 DataFrame (Table B)。

  1. 筛选 Name 列:

首先,使用 filter 函数筛选出所有 Name 列。

name_df = df.filter(like='Name')
print("\n筛选后的 Name DataFrame:\n", name_df)
登录后复制
  1. 堆叠 Name 列:

使用 stack 函数将 Name 列堆叠成一个 Series。

name_stacked = name_df.stack()
print("\n堆叠后的 Name Series:\n", name_stacked)
登录后复制
  1. 筛选 Position 列:

类似地,筛选出所有 Position 列。

序列猴子开放平台
序列猴子开放平台

具有长序列、多模态、单模型、大数据等特点的超大规模语言模型

序列猴子开放平台 0
查看详情 序列猴子开放平台
position_df = df.filter(like='Position')
print("\n筛选后的 Position DataFrame:\n", position_df)
登录后复制
  1. 堆叠 Position 列并创建条件:

将 Position 列堆叠成一个 Series,并创建一个布尔条件,判断 Position 值是否不等于 -1。

position_stacked = position_df.stack()
condition = position_stacked.ne(-1).values
print("\n堆叠后的 Position Series:\n", position_stacked)
print("\n条件 (Position != -1):\n", condition)
登录后复制
  1. 应用条件并清理数据:

使用 where 函数将不满足条件的 Name 值替换为 NaN,然后使用 dropna 函数删除 NaN 值。

filtered_name = name_stacked.where(condition).dropna()
print("\n应用条件并删除 NaN 后的 Name Series:\n", filtered_name)
登录后复制
  1. 转换为 DataFrame:

最后,将 Series 转换成 DataFrame,并进行转置,得到最终的结果。

new_df = filtered_name.droplevel(0).sort_index().to_frame().T
print("\n最终 DataFrame (Table B):\n", new_df)
登录后复制

完整代码

import pandas as pd
import numpy as np

data = {'Position A': [-1, 3, -1, -1],
        'Name A': ['tortise', 'sprite', 'nope', 'nope'],
        'Position B': [-1, 2, -1, -1],
        'Name B': ['monkey', 'coffee', 'nope', 'nope'],
        'Position C': [2, -1, -1, -1],
        'Name C': ['coca cola', 'bird', 'fish', 'nope'],
        'Position D': [-1, -1, 5, -1],
        'Name D': ['slug', 'monkey', 'root beer', 'nope'],
        'Position E': [-1, -1, 1, -1],
        'Name E': ['rooster', 'ostrich', 'tea', 'nope']}
df = pd.DataFrame(data)

new_df = (df.filter(like='Name').stack()
          .where(df.filter(like='Position').stack().ne(-1).values)
          .dropna().droplevel(0).sort_index().to_frame().T
)

print(new_df)
登录后复制

注意事项

  • 确保 Position 和 Name 列的对应关系正确,这是数据处理的基础。
  • droplevel(0) 用于删除堆叠后 Series 的第一层索引,使结果更清晰。
  • sort_index() 用于对列名进行排序,保证结果的顺序性。
  • 如果数据量很大,可以考虑使用更高效的数据处理方法,例如使用 NumPy 数组进行操作。

总结

本文介绍了一种使用 Pandas 将多列多行数据合并到单行的方法,通过 stack、where、dropna 等函数的组合应用,可以高效地实现数据转换。这种方法在数据分析和处理中非常实用,可以帮助我们从复杂的数据中提取关键信息,并进行进一步的分析和建模。掌握这种技巧,可以提高数据处理的效率和准确性。

以上就是Pandas 数据处理:从多列多行合并特定数据到单行的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号