
本文介绍了如何基于多个列将两个 Pandas DataFrames 进行合并,并处理缺失值的情况。我们将探讨使用 `merge` 函数以及 `add_suffix` 函数来清晰区分左右 DataFrame 的列,并展示如何对合并后的结果进行排序。
Pandas 提供了强大的数据合并功能,其中 merge 函数是实现 DataFrame 连接的关键工具。当需要基于多个列进行连接,并且希望处理两个 DataFrame 中存在差异的数据时,需要采取一些额外的技巧。
最直接的方法是使用 pandas.DataFrame.merge 函数,并结合 pandas.DataFrame.add_suffix 函数来区分左右 DataFrame 的列名。
import pandas as pd
# 示例数据
df1 = pd.DataFrame({
'level': ['Level 0', 'Level 1', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 3'],
'title': ['Effective', 'Evaluation', 'Ice Breaker', 'Fire', 'Introduction', 'Understanding', 'Connect']
})
df2 = pd.DataFrame({
'level': ['Level 0', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 4'],
'title': ['Effective', 'Evaluation', 'Comedy', 'Introduction', 'Understanding', 'Connect']
})
# 使用 merge 和 add_suffix
out = df1.merge(df2.add_suffix('_'), how='outer',
left_on=['level', 'title'],
right_on=['level_', 'title_'])
print(out)这段代码首先导入 pandas 库,并创建两个示例 DataFrame df1 和 df2。然后,使用 merge 函数将这两个 DataFrame 连接起来。how='outer' 参数指定了外连接,这意味着保留两个 DataFrame 中的所有行,对于没有匹配的行,会填充 NaN 值。left_on 和 right_on 参数分别指定了左侧和右侧 DataFrame 中用于连接的列。add_suffix('_') 用于给 df2 的列名添加后缀,以避免列名冲突。
输出结果如下:
level title level_ title_ 0 Level 0 Effective Level 0 Effective 1 Level 1 Evaluation Level 1 Evaluation 2 Level 1 Ice Breaker NaN NaN 3 Level 1 Fire NaN NaN 4 Level 2 Introduction Level 2 Introduction 5 Level 2 Understanding Level 2 Understanding 6 Level 3 Connect NaN NaN 7 NaN NaN Level 1 Comedy 8 NaN NaN Level 4 Connect
如果需要对合并后的结果基于连接键进行排序,可以使用以下方法:
import pandas as pd
# 示例数据
df1 = pd.DataFrame({
'level': ['Level 0', 'Level 1', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 3'],
'title': ['Effective', 'Evaluation', 'Ice Breaker', 'Fire', 'Introduction', 'Understanding', 'Connect']
})
df2 = pd.DataFrame({
'level': ['Level 0', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 4'],
'title': ['Effective', 'Evaluation', 'Comedy', 'Introduction', 'Understanding', 'Connect']
})
out = (df1.merge(df2, how='outer',
left_on=[df1['level'], df1['title']],
right_on=['level', 'title'])
.sort_values(by=['level'])
#.drop(columns=['level', 'title']) # uncomment to drop merged keys
)
print(out)这段代码与前一个示例类似,但使用了不同的 left_on 参数,将 df1['level'] 和 df1['title'] 作为列表传递给 left_on。然后,使用 sort_values 函数基于 'level' 列对结果进行排序。如果需要,可以取消注释 # .drop(columns=['level', 'title']) 行来删除合并键。
输出结果如下:
level title level_x title_x level_y title_y 0 Level 0 Effective Level 0 Effective Level 0 Effective 1 Level 1 Evaluation Level 1 Evaluation Level 1 Evaluation 2 Level 1 Ice Breaker Level 1 Ice Breaker NaN NaN 3 Level 1 Fire Level 1 Fire NaN NaN 7 Level 1 Comedy NaN NaN Level 1 Comedy 4 Level 2 Introduction Level 2 Introduction Level 2 Introduction 5 Level 2 Understanding Level 2 Understanding Level 2 Understanding 6 Level 3 Connect Level 3 Connect NaN NaN 8 Level 4 Connect NaN NaN Level 4 Connect
本文介绍了如何基于多个列合并 Pandas DataFrames,并处理缺失值和排序的问题。通过使用 merge 函数和 add_suffix 函数,可以灵活地控制 DataFrame 的连接方式,并获得所需的结果。 理解这些技巧对于进行复杂的数据分析和处理至关重要。
以上就是基于多列合并 Pandas DataFrames 的方法的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号