
本文介绍了如何使用 Polars 库对两个 LazyFrame 进行列级别的乘法操作。由于直接对 LazyFrame 使用乘法运算符会引发 TypeError,本文提供了一种通过 join 操作和列选择来实现相同目的的有效方法,并附带示例代码。
在使用 Polars 处理大型数据集时,LazyFrame 提供了一种延迟计算的机制,可以显著提高性能。然而,直接对两个 LazyFrame 执行列级别的乘法操作会引发 TypeError。本文将介绍一种使用 join 操作来实现此目的的有效方法。
解决方案:使用 Join 和列选择
由于 Polars 的 LazyFrame 不直接支持 df1 * df2 这种列级别的乘法,我们需要采用一种替代方案。该方案的核心思想是:
以下是具体的代码示例:
import polars as pl
import numpy as np
# 示例数据
n = 10
df1 = pl.DataFrame(data={
'foo': np.random.uniform(0,127, size= n).astype(np.float64),
'bar': np.random.uniform(1e3,32767, size= n).astype(np.float64),
'baz': np.random.uniform(1e6,2147483, size= n).astype(np.float64)
}).lazy()
df2 = pl.DataFrame(data={
'foo': np.random.uniform(0,127, size= n).astype(np.float64),
'bar': np.random.uniform(1e3,32767, size= n).astype(np.float64),
'baz': np.random.uniform(1e6,2147483, size= n).astype(np.float64)
}).lazy()
result = (
df1.with_row_index()
.join(df2.with_row_index(), on="index")
.select(pl.col(col) * pl.col(f"{col}_right") for col in df1.columns)
.collect()
)
print(result)代码解释:
注意事项:
总结:
虽然 Polars 的 LazyFrame 不直接支持列级别的乘法操作,但我们可以通过 join 操作和列选择来实现相同的目的。这种方法不仅有效,而且可以充分利用 LazyFrame 的延迟计算特性,提高性能。 通过为 LazyFrame 添加索引,进行 join 操作,并使用 select 方法进行列级运算,可以有效地解决 LazyFrame 无法直接进行列级乘法的问题。这种方法保持了 LazyFrame 的延迟计算优势,适用于处理大型数据集。
以上就是使用 Polars LazyFrame 进行列级乘法的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号