Pandas管道操作中合并后创建新列：eval与assign的正确姿势-Python教程-PHP中文网

Pandas管道操作中合并后创建新列：eval与assign的正确姿势

霞舞

发布： 2025-11-25 12:26:02

原创

763人浏览过

pandas管道操作中合并后创建新列：eval与assign的正确姿势

在Pandas数据处理管道中，当合并两个DataFrame后需要基于现有列计算生成新列时，直接使用assign()或transform()可能因类型错误而失败。本文将介绍两种高效且正确的解决方案：利用DataFrame.eval()进行简洁的字符串表达式求值，以及通过assign()结合lambda函数实现灵活的列计算，从而优化数据处理流程并提升代码可读性。

在Pandas的数据分析工作中，我们经常需要将多个DataFrame合并，并在合并后立即根据现有列执行计算以生成新的数据列。将这些操作封装在链式管道（pipeline）中，可以显著提高代码的可读性和维护性。然而，在尝试通过assign()或transform()方法在管道中创建新列时，初学者可能会遇到TypeError，尤其是在直接引用列名进行数学运算时。

理解问题：管道中新列计算的挑战

假设我们有两个DataFrame，solar_part和solar_aod，它们通过pool列进行合并：

import pandas as pd

solar_part = pd.DataFrame(
     {'pool': 1,
     'orig': 635.1}, index = [0]
     )

solar_aod = pd.DataFrame(
     {'pool': [1,1,1,1],
      'MoP': [1,2,3,4],
     'prin': [113.1, 115.3, 456.6, 234.1]}
     )

登录后复制

我们的目标是在合并后，基于prin和orig两列计算一个新的列remn（例如，remn = prin / orig）。一个常见的尝试是直接在assign()中使用列名字符串：

# 错误示范
# solar_p = (
#     solar_aod
#     .merge(solar_part, on = ['pool'], how = 'left')
#     .assign(remn = ['prin'] / ['orig']) # 或 assign(remn = 'prin' / 'orig')
#     )

登录后复制

这种写法会导致TypeError: unsupported operand type(s) for /: 'list' and 'list'（或'str' and 'str'），因为assign()在默认情况下会将'prin'或['prin']解释为字符串字面量或字符串列表，而不是DataFrame中的列引用。因此，不能直接对这些字面量执行数学运算。

为了在管道中高效且正确地完成这类操作，Pandas提供了几种解决方案。

解决方案一：利用 DataFrame.eval() 简化表达式计算

DataFrame.eval()方法允许我们以字符串形式定义表达式，并在DataFrame的上下文中执行它们。这使得它非常适合在管道中创建新列，特别是当表达式涉及多个现有列的简单数学运算时。

使用eval()的优点在于其简洁性和效率，Pandas会在底层优化这些字符串表达式的计算。

solar_p_eval = (
    solar_aod
    .merge(solar_part, on='pool', how='left')
    .eval('remn = prin / orig')
)

print(solar_p_eval)

登录后复制

输出结果：

   pool  MoP   prin   orig      remn
0     1    1  113.1  635.1  0.178082
1     1    2  115.3  635.1  0.181546
2     1    3  456.6  635.1  0.718942
3     1    4  234.1  635.1  0.368603

登录后复制

eval()方法直接将字符串'remn = prin / orig'解析为在当前DataFrame上执行的操作，其中prin和orig被正确识别为列名。

听脑AI

听脑AI语音，一款专注于音视频内容的工作学习助手，为用户提供便捷的音视频内容记录、整理与分析功能。

745

查看详情

解决方案二：assign() 结合 lambda 函数的灵活性

虽然eval()在处理简单表达式时非常强大，但assign()方法通过结合lambda函数提供了更大的灵活性，尤其是在需要执行更复杂的逻辑或调用自定义函数时。

当assign()接收一个可调用对象（如lambda函数）作为参数时，它会将当前的DataFrame作为输入传递给这个函数。这样，我们就可以在lambda函数内部安全地引用DataFrame的列。

solar_p_assign_lambda = (
    solar_aod
    .merge(solar_part, on='pool', how='left')
    .assign(remn = lambda df: df['prin'] / df['orig'])
)

print(solar_p_assign_lambda)

登录后复制

输出结果：

   pool  MoP   prin   orig      remn
0     1    1  113.1  635.1  0.178082
1     1    2  115.3  635.1  0.181546
2     1    3  456.6  635.1  0.718942
3     1    4  234.1  635.1  0.368603

登录后复制

在这个例子中，lambda df: df['prin'] / df['orig']接收合并后的DataFrame df，然后通过df['prin']和df['orig']正确访问到相应的列Series，并执行逐元素的除法运算。

注意事项与最佳实践

选择方法：
- eval()： 适用于涉及简单数学运算符（+, -, *, /, **等）和比较运算符的列间计算。它的语法更简洁，对于大型数据集可能具有性能优势，因为它通常会利用NumPy进行优化。
- assign() + lambda： 提供更高的灵活性。当你需要执行更复杂的逻辑，例如条件判断、调用自定义函数、或者链式应用多个Pandas方法来生成新列时，lambda函数是更好的选择。
可读性： 管道操作（pipe、链式调用）本身就旨在提高代码的可读性。选择最能清晰表达意图的方法至关重要。对于简单的列计算，eval()通常更直观。
性能： 对于大规模数据，eval()在某些情况下可能会比assign与lambda的组合更快，因为它能够利用numexpr库进行优化。然而，对于大多数常见场景，两者的性能差异可能不明显。
避免直接字符串运算： 记住，在assign()中直接使用字符串字面量进行运算是无效的。必须通过可调用对象（如lambda）来访问DataFrame的列。

总结

在Pandas的数据处理管道中，合并数据后创建新列是一个常见需求。为了避免TypeError并保持代码的简洁性，我们推荐使用DataFrame.eval()进行简单的列间数学运算，或者使用assign()结合lambda函数来处理更复杂的计算逻辑。这两种方法都能优雅地融入Pandas的链式操作，显著提升数据处理代码的效率和可维护性。理解它们的适用场景和工作原理，将帮助你更高效地利用Pandas进行数据分析。

以上就是Pandas管道操作中合并后创建新列：eval与assign的正确姿势的详细内容，更多请关注php中文网其它相关文章！