在 AWS 中转换文件更快、更便宜:Polar 或 Pandas?

PHPz
发布: 2024-08-11 14:47:22
转载
720人浏览过

两者都提供了广泛的工具和优势,这可能会让我们在某些时候怀疑选择两者中的哪一个。这并不是要改变公司的所有流程,以便他们开始使用 polars 或 pandas“死亡”(这不会在不久的将来发生)。这是关于了解其他可以帮助我们降低流程成本和时间、获得相同或更好结果的工具。

当我们使用云服务时,我们会优先考虑某些因素,包括其成本。我用于此过程的服务是带有 Python 3.10 运行时的 AWS Lambda 和用于存储原始文件和 parquet 转换文件的 S3。

目的是获取 CSV 文件作为原始数据,并使用 pandas 和 Polars 对其进行处理,以验证这两个库中的哪一个可以为我们提供更好的资源优化,例如内存和结果文件的重量。

熊猫
它是一个专门用于数据操作和分析的Python库,它是用C编写的,最初发布于2008年。

*极地*
它是一个专门从事数据操作和分析的 Python 和 Rust 库,允许并行处理,主要用 Rust 编写,于 2022 年发布。

流程架构:

在 AWS 中转换文件更快、更便宜:Polar 或 Pandas?

该项目有点简单,如架构所示:用户将 CSV 文件存入 work/pandas 或 work/porlas 中,并自动启动 s3 触发器来处理该文件,将其转换为 parquet 并将其存入processes。

在这个小项目中,我使用了两个具有以下配置的 lambda:
内存:2GB
临时内存:2 GB
续航时间:600秒

要求
Lambda 与 pandas:Pandas、Numpy 和 Pyarrow
Lambda 与极坐标:极坐标

用于比较的数据集可以在 kaggle 上以“Rotten Tomatoes Movie Reviews – 1.44M rows”的名称找到,或者可以从这里下载。

LobeHub
LobeHub

LobeChat brings you the best user experience of ChatGPT, OLLaMA, Gemini, Claude

LobeHub 201
查看详情 LobeHub

完整的存储库可在 GitHub 上找到,并且可以在此处克隆。

尺寸或重量
Pandas 使用的 lambda 需要另外两个插件来创建 parquet 文件,在本例中是 PyArrow 和我使用的 Pandas 版本的特定版本的 numpy。结果,我们获得了权重或大小为 74.4 MB 的 lambda,这非常接近 AWS 允许我们实现的 lambda 权重限制。

带有 Polars 的 lambda 不需要像 PyArrow 这样的其他插件,它简化了生活并将 lambda 的大小减少到一半以下。因此,与第一个 lambda 相比,我们的 lambda 的权重或大小为 30.6 MB,为我们提供了安装转换过程可能需要的其他依赖项的空间。

表演

在 AWS 中转换文件更快、更便宜:Polar 或 Pandas?
在第一个版本之后,带有 Pandas 的 lambda 被优化为使用压缩,但是,也分析了它的行为。
熊猫
与其他版本相比,处理数据集花了 18 秒,并使用了 1894 MB 内存来处理 CSV 文件并生成 Parquet 文件,这是使用时间和资源最多的版本。

熊猫+压缩
添加一行代码使我们比之前的版本(Pandas)有了一点改进,处理数据集花了 17 秒,使用了 1837 MB,这并不代表处理和计算时间的显着改进,而是大小的显着改进。生成的文件。

北极
处理相同的数据集花了 12 秒,我只使用了 1462 MB,与前两个相比,它节省了 44.44% 的时间并降低了内存消耗。

输出文件大小

在 AWS 中转换文件更快、更便宜:Polar 或 Pandas?
熊猫
未建立压缩过程的 lambda 生成了 177.4 MB 的 parquet 文件。

熊猫+压缩
在 lambda 中配置压缩时,我不会生成 121.1 MB 的 parquet 文件。一小行或一个选项帮助我们将文件大小减少了 31.74%。考虑到这不是重大的代码更改,这是一个非常好的选择。

北极
Polars 生成了一个 105.8 MB 的文件,与 Pandas 第一个版本一起购买时,与经过压缩的 Pandas 版本相比,该文件分别节省了 40.36% 和 12.63%。

结论
没有必要改变所有使用 Pandas 的内部流程,以便它们现在使用 Polars,但是,重要的是要考虑到,如果我们谈论数千或数百万个 lambda 执行,使用 Polars 不仅会帮助我们进行部署时间,但由于 AWS 为 Lambda 等无服务器服务提供基于时间的收费,因此也将帮助我们降低成本。
同样,当我们将 40.36% 转换为数百万个文件时,我们谈论的是 GB 或 TB,这会对 Datalake 或 Dataware house 甚至冷文件存储产生重大影响。

Polars 的减少不仅限于这两个因素,因为它会极大地影响 AWS 的数据和/或对象的输出,因为它是一项确实有成本的服务。

以上就是在 AWS 中转换文件更快、更便宜:Polar 或 Pandas?的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:dev.to网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号