
在处理包含大量对象的列表时,根据特定条件从一个列表中筛选对象,并从另一个列表中找到与之匹配的对象,是一个常见的编程任务。然而,如果采用朴素的嵌套循环方法,其性能会随着数据量的增长而急剧下降。本教程将以一个具体的案例为例,展示如何通过引入哈希表(python中的字典)来大幅提升匹配效率。
假设我们有以下 Person 类,用于表示居住在不同区域和房屋中的个体:
class Person:
def __init__(self, name, age, district, house_number):
self.name = name
self.age = age
self.district = district
self.house_number = house_number
def __repr__(self):
return f"Person(name='{self.name}', age={self.age}, district='{self.district}', house_number={self.house_number})"我们有两个列表 men 和 women,分别存储了男性和女性的 Person 对象。每个房屋都住着一男一女,因此两个列表的长度相等。列表中的对象是随机排列的。
我们的目标是:
假设 min_age 和 men, women 列表已预先定义并填充,且数据量非常大。
一个直观的解决方案是使用嵌套循环。首先,遍历 men 列表筛选出符合年龄条件的男性,然后对于每个筛选出的男性,再次遍历 women 列表以找到匹配的女性。
# 假设 men, women 列表和 min_age 变量已定义
# 示例数据(实际数据量远大于此)
men = [
Person("Alex", 22, "District 7", 71),
Person("Bob", 30, "District 1", 101),
Person("Charlie", 25, "District 7", 72),
Person("David", 35, "District 1", 102),
]
women = [
Person("Alice", 28, "District 1", 101),
Person("Eve", 20, "District 7", 71),
Person("Grace", 23, "District 7", 72),
Person("Hannah", 32, "District 1", 102),
]
min_age = 25
men_new = []
women_new = []
# 步骤1: 筛选男性
for man in men:
if man.age > min_age:
men_new.append(man)
# 步骤2: 匹配女性 (低效部分)
# for man in men_new:
# # 每次都需要遍历整个 women 列表
# for woman in women:
# if woman.district == man.district and woman.house_number == man.house_number:
# women_new.append(woman)
# break # 找到后退出内层循环上述方案的瓶颈在于第二步的匹配过程。如果 men_new 列表的长度为 N_new,women 列表的长度为 M,那么在最坏情况下,每次查找一个女性都需要遍历 M 个元素。因此,匹配的总时间复杂度将达到 O(N_new * M)。当 N_new 和 M 都非常大时,这种二次方的时间复杂度会导致程序运行极其缓慢,甚至无法完成。
为了解决上述性能问题,我们可以利用哈希表(Python中的字典)进行优化。哈希表的核心优势在于其平均 O(1) 的查找时间复杂度。
核心思想: 我们可以将 women 列表预处理成一个哈希表,其中键是房屋的唯一标识(例如,district 和 house_number 的组合),值是对应的 Person 对象(女性)。这样,当我们需要查找某个男性对应的女性时,可以直接通过房屋标识在哈希表中进行 O(1) 的快速查找,而无需遍历整个 women 列表。
首先,遍历 women 列表,创建一个字典 house_to_woman。由于 house_number 在不同 district 中可能重复(例如,"District 1"有1号房,"District 2"也有1号房),所以我们将 (district, house_number) 作为一个元组作为字典的键,以确保唯一性。
house_to_woman = {}
for woman in women:
house_key = (woman.district, woman.house_number)
house_to_woman[house_key] = woman这一步的时间复杂度是 O(M),其中 M 是 women 列表的长度。我们只需要遍历一次 women 列表。
接下来,我们遍历 men 列表。对于每个男性:
men_new = []
women_new = []
for man in men:
if man.age > min_age:
# 构建房屋键
house_key = (man.district, man.house_number)
# 从哈希表中 O(1) 查找匹配的女性
matched_woman = house_to_woman.get(house_key) # 使用 .get() 避免键不存在时报错
if matched_woman: # 确保找到了匹配的女性
men_new.append(man)
women_new.append(matched_woman)这一步的时间复杂度是 O(N),其中 N 是 men 列表的长度。因为字典查找操作平均为 O(1)。
class Person:
def __init__(self, name, age, district, house_number):
self.name = name
self.age = age
self.district = district
self.house_number = house_number
def __repr__(self):
return f"Person(name='{self.name}', age={self.age}, district='{self.district}', house_number={self.house_number})"
# 示例数据(实际应用中数据量会大得多)
men = [
Person("Alex", 22, "District 7", 71),
Person("Bob", 30, "District 1", 101),
Person("Charlie", 25, "District 7", 72),
Person("David", 35, "District 1", 102),
Person("Frank", 40, "District 3", 301),
Person("George", 28, "District 7", 73),
]
women = [
Person("Alice", 28, "District 1", 101),
Person("Eve", 20, "District 7", 71),
Person("Grace", 23, "District 7", 72),
Person("Hannah", 32, "District 1", 102),
Person("Ivy", 38, "District 3", 301),
Person("Julia", 27, "District 7", 73),
]
min_age = 25
# --- 优化方案开始 ---
# 步骤1: 构建女性房屋哈希表 (O(M) 时间复杂度)
house_to_woman = {}
for woman in women:
house_key = (woman.district, woman.house_number)
house_to_woman[house_key] = woman
# 步骤2: 筛选男性并高效匹配女性 (O(N) 时间复杂度)
men_new = []
women_new = []
for man in men:
if man.age > min_age:
house_key = (man.district, man.house_number)
matched_woman = house_to_woman.get(house_key)
if matched_woman:
men_new.append(man)
women_new.append(matched_woman)
# 打印结果
print("筛选出的男性 (men_new):")
for m in men_new:
print(m)
print("\n匹配的女性 (women_new):")
for w in women_new:
print(w)
# 验证匹配关系
print("\n匹配验证:")
for i in range(len(men_new)):
man = men_new[i]
woman = women_new[i]
print(f"男性: {man.name}, 房屋: ({man.district}, {man.house_number}) <-> 女性: {woman.name}, 房屋: ({woman.district}, {woman.house_number})")
assert man.district == woman.district and man.house_number == woman.house_number对于大规模数据集,N 和 M 都可能非常大。O(N_new * M) 的二次方复杂度会迅速变得不可接受,而 O(M + N) 的线性复杂度则具有更好的扩展性。这种优化方式将查找的效率从线性扫描提升到了接近常数时间,从而在大数据场景下实现了显著的性能提升。
注意事项:
通过将一个列表转换为哈希表,我们可以将对象匹配问题从一个计算密集型的任务转化为一个高效的查找任务,这是处理大数据集时常用的优化策略之一。
以上就是优化大数据集中的对象匹配:使用哈希表提升效率的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号