
在数据分析和处理中,我们经常需要对比两个结构相似的pandas dataframe,以找出它们之间的差异。例如,在版本控制、数据更新审计或a/b测试结果分析等场景下,快速定位并只关注那些发生变化的行和列是至关重要的。本教程将指导您如何利用pandas库的强大功能,实现这一目标。
假设我们有两个DataFrame,df1和df2,它们包含相同的结构和大部分相同的数据,但某些行或列的特定值可能存在差异。我们的目标是生成一个新的DataFrame,其中只包含那些发生变化的行(及其对应的维度列)以及发生变化的具体列。
考虑以下两个示例DataFrame:
DataFrame 1 (df1):
| pet_name | exam_day | result_1 | result_2 | pre_result_1 |
|---|---|---|---|---|
| Patrick | 2023-01-01 | 1 | 10 | 123 |
| Patrick | 2023-01-02 | 2 | 20 | 123 |
| Patrick | 2023-01-03 | 3 | 30 | 123 |
| Patrick | 2023-01-04 | 4 | 40 | 123 |
DataFrame 2 (df2):
| pet_name | exam_day | result_1 | result_2 | pre_result_1 |
|---|---|---|---|---|
| Patrick | 2023-01-01 | 1 | 10 | 123 |
| Patrick | 2023-01-02 | 99 | 20 | 123 |
| Patrick | 2023-01-03 | 3 | 30 | 123 |
| Patrick | 2023-01-04 | 4 | 100 | 123 |
在这个例子中,df1和df2在以下位置存在差异:
我们希望最终的输出DataFrame只包含这些差异,以及用于标识这些差异的维度列(pet_name和exam_day),例如:
| pet_name | exam_day | result_1 | result_2 |
|---|---|---|---|
| Patrick | 2023-01-02 | 2 | NaN |
| Patrick | 2023-01-02 | 99 | NaN |
| Patrick | 2023-01-04 | NaN | 40 |
| Patrick | 2023-01-04 | NaN | 100 |
传统的 merge(..., indicator=True, how='outer') 方法虽然能识别出有差异的行,但它会保留所有列,并且对同一行中的多个差异处理不够直观。为了达到上述精确的差异报告效果,Pandas提供了更专业的工具。
Pandas 1.1.0 版本引入的 DataFrame.compare 方法是解决此类问题的理想工具。它专门用于比较两个DataFrame,并以一种清晰的格式突出显示差异。
import pandas as pd
import numpy as np
# 示例数据
data1 = {
'pet_name': ['Patrick', 'Patrick', 'Patrick', 'Patrick'],
'exam_day': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04'],
'result_1': [1, 2, 3, 4],
'result_2': [10, 20, 30, 40],
'pre_result_1': [123, 123, 123, 123]
}
df1 = pd.DataFrame(data1)
data2 = {
'pet_name': ['Patrick', 'Patrick', 'Patrick', 'Patrick'],
'exam_day': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04'],
'result_1': [1, 99, 3, 4], # result_1 for 2023-01-02 is different
'result_2': [10, 20, 30, 100], # result_2 for 2023-01-04 is different
'pre_result_1': [123, 123, 123, 123]
}
df2 = pd.DataFrame(data2)
print("df1:")
print(df1)
print("\ndf2:")
print(df2)
# 1. 将维度列设置为索引
# 2. 调用 compare 方法,align_axis=0 表示按行比较列
# 3. 移除多级列索引中的内层 ('self', 'other')
# 4. 重置索引,将维度列变回常规列
out = (df1.set_index(['pet_name', 'exam_day'])
.compare(df2.set_index(['pet_name', 'exam_day']), align_axis=0)
.droplevel(-1, axis=1) # 移除最内层索引 (self/other)
.reset_index())
print("\n差异结果:")
print(out)运行上述代码,您将得到如下输出:
df1: pet_name exam_day result_1 result_2 pre_result_1 0 Patrick 2023-01-01 1 10 123 1 Patrick 2023-01-02 2 20 123 2 Patrick 2023-01-03 3 30 123 3 Patrick 2023-01-04 4 40 123 df2: pet_name exam_day result_1 result_2 pre_result_1 0 Patrick 2023-01-01 1 10 123 1 Patrick 2023-01-02 99 20 123 2 Patrick 2023-01-03 3 30 123 3 Patrick 2023-01-04 4 100 123 差异结果: pet_name exam_day result_1 result_2 0 Patrick 2023-01-02 2.0 NaN 1 Patrick 2023-01-02 99.0 NaN 2 Patrick 2023-01-04 NaN 40.0 3 Patrick 2023-01-04 NaN 100.0
可以看到,最终的 out DataFrame 准确地捕获了 df1 和 df2 之间的所有差异。对于每个有差异的行,它会生成两行记录:一行显示 df1 中的值(self),另一行显示 df2 中的值(other)。没有差异的列则显示 NaN。
result_1 result_2
pet_name exam_day
Patrick 2023-01-02 self 2.0 NaN
other 99.0 NaN
2023-01-04 self NaN 40.0
other NaN 100.0其中,列名是原始列名,第二级索引 self 和 other 指示该值来自哪个DataFrame。
DataFrame.compare 方法是Pandas中一个强大且直观的工具,专门用于识别并提取两个DataFrame之间的差异。通过合理地设置索引并进行后续处理,我们可以生成一个高度定制化的差异报告,仅显示发生变化的行和列,这对于数据审计、变更追踪和版本控制等任务具有极高的实用价值。掌握这一方法,将显著提升您在处理和分析数据变更时的效率。
以上就是Pandas DataFrame 高效比较:仅保留差异行与列的教程的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号