
本文将深入探讨如何在pandas dataframe中高效地执行向量化操作,特别关注如何根据列的特定条件筛选数据,并提取与之关联的非表格化信息,例如患者id列表。我们将通过实例演示如何结合向量化过滤和列表推导式,以优化性能并获取结构清晰的结果。
Pandas作为Python数据分析的核心库,其强大的向量化能力是实现高性能数据处理的关键。向量化操作允许我们对整个Series或DataFrame进行元素级别的操作,而无需编写显式的Python循环,从而显著提高执行效率。
我们首先创建一个示例DataFrame来演示:
import pandas as pd
columns = ['S1', 'S2', 'S3', 'S4', 'S5']
df = pd.DataFrame({'Patient':['p1', 'p2', 'p3', 'p4', 'p5', 'p6', 'p7', 'p8', 'p9', 'p10'],
'S1':[0.7, 0.3, 0.5, 0.8, 0.9, 0.1, 0.9, 0.2, 0.6, 0.3],
'S2':[0.2, 0.3, 0.5, 0.4, 0.9, 0.1, 0.9, 0.7, 0.4, 0.3],
'S3':[0.6, 0.3, 0.5, 0.8, 0.9, 0.8, 0.9, 0.3, 0.6, 0.3],
'S4':[0.2, 0.3, 0.7, 0.8, 0.9, 0.1, 0.9, 0.7, 0.3, 0.3 ],
'S5':[0.9, 0.8, 0.5, 0.8, 0.9, 0.7, 0.2, 0.7, 0.6, 0.3 ]})
print("原始DataFrame:")
print(df)基于此DataFrame,我们可以轻松执行一些基本的向量化聚合操作。例如,计算每列中值大于或等于0.5的单元格数量,以及这些单元格的总和:
# 获取每列中值 >= 0.5 的单元格数量
arr1 = df[columns].ge(0.5).sum().to_numpy()
print("\n每列中值 >= 0.5 的单元格数量:")
print(arr1)
# 获取每列中值 >= 0.5 的单元格总和
# 注意:这里先筛选出符合条件的单元格,不符合的会变为NaN,然后对NaN求和会忽略NaN
arr2 = df[df[columns]>=0.5][columns].sum().to_numpy()
print("\n每列中值 >= 0.5 的单元格总和:")
print(arr2)上述示例展示了对DataFrame进行聚合计算的向量化方法。然而,在某些场景下,我们可能需要根据每列的特定条件,提取与这些条件关联的“行标识符”(例如本例中的Patient ID),并以列表的形式呈现,而不是进行聚合。
例如,我们希望得到一个列表,其中每个元素都是一个子列表,包含特定列中值大于或等于0.5的所有Patient ID。期望的输出格式如下:
[['p1', 'p3', 'p4', 'p5', 'p7', 'p9'], ['p3', 'p5', 'p7', 'p8'], ['p1', 'p3', 'p4', 'p5', 'p6', 'p7', 'p9'], (...), (...)]
为了实现这种非表格化的结果,我们可以结合使用列表推导式(List Comprehension)和Pandas的布尔索引。对于每一列,我们首先生成一个布尔Series,然后用它来筛选Patient列,最后将结果转换为列表。
# 使用列表推导式按列筛选并提取患者ID
patient_lists_by_column = [df.Patient[df[col] >= 0.5].to_list() for col in columns]
print("\n按列条件筛选的患者ID列表:")
print(patient_lists_by_column)代码解析:
通过这种方式,我们避免了显式的嵌套循环,利用了Pandas底层的优化,使得代码既简洁又高效。
在Pandas DataFrame中,高效地根据列条件筛选数据并提取关联信息是常见需求。本文演示了如何巧妙地结合Pandas的向量化布尔索引与Python的列表推导式,以简洁、高效的方式实现这一目标。这种方法不仅能够处理聚合计算,还能灵活地生成结构化的非表格化结果,如本例中的患者ID列表,极大地提升了数据处理的效率和代码的可读性。掌握这种模式,将有助于您在数据分析工作中更游刃有余。
以上就是Pandas DataFrame高效筛选:按列条件提取关联患者列表的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号