
在处理包含多个条目的字典数据时,我们经常需要计算这些条目之间的相似度。例如,给定一个字典,其中每个键对应一个包含多个属性的子字典:
my_dict = {
'A': {'HUE_SAT': 1, 'GROUP_INPUT': 1, 'GROUP_OUTPUT': 1},
'D': {'HUE_SAT': 1, 'GROUP_INPUT': 1, 'GROUP_OUTPUT': 1},
'T': {'HUE_SAT': 1, 'GROUP_INPUT': 1, 'GROUP_OUTPUT': 1},
'O': {'GROUP_INPUT': 3, 'MAPPING': 2, 'TEX_NOISE': 2, 'UVMAP': 2, 'VALTORGB': 3, 'GROUP_OUTPUT': 1, 'AMBIENT_OCCLUSION': 1, 'MIX': 4, 'REROUTE': 1, 'NEW_GEOMETRY': 1, 'VECT_MATH': 1},
# ... 更多条目
}通常,我们会编写一个相似度计算函数(例如余弦相似度),并遍历所有可能的条目对来计算它们之间的相似度。这会生成一个包含大量冗余信息的相似度字典,例如:
results = {
('A', 'D'): 1.0,
('A', 'C'): 1.0,
('D', 'A'): 1.0, # 与 ('A', 'D') 冗余
('D', 'C'): 1.0,
('C', 'A'): 1.0, # 与 ('A', 'C') 冗余
('C', 'D'): 1.0,
# ...
}我们的目标是将这些具有相同相似度且彼此之间也具有该相似度的条目进行分组,形成类似 ('A', 'D', 'C'): 1.0 这样的聚合结果,从而消除冗余并提高数据的可读性与利用效率。传统的嵌套循环尝试解决此问题往往会导致代码复杂且难以维护。
为了演示,我们沿用问题中提供的余弦相似度函数。这个函数接收两个字典作为输入,并返回它们之间的余弦相似度。
from math import sqrt
from itertools import combinations # 导入 combinations 用于生成所有不重复的对
def square_root(x):
"""计算向量平方和的平方根,用于余弦相似度的分母。"""
return round(sqrt(sum([a * a for a in x])), 3)
def cosine_similarity(a, b):
"""
计算两个字典(视为向量)之间的余弦相似度。
字典的键被视为维度,值被视为维度上的分量。
"""
# 确保输入字典的键集合一致性,并构建向量
all_keys = sorted(list(set(a.keys()) | set(b.keys()))) # 合并所有键并排序以保持一致性
vector1 = [float(a.get(k, 0)) for k in all_keys]
vector2 = [float(b.get(k, 0)) for k in all_keys]
numerator = sum(v1 * v2 for v1, v2 in zip(vector1, vector2))
denominator = square_root(vector1) * square_root(vector2)
if denominator == 0: # 避免除以零
return 0.0
return round(numerator / float(denominator), 3)
# 原始数据
my_dict = {
'A': {'HUE_SAT': 1, 'GROUP_INPUT': 1, 'GROUP_OUTPUT': 1},
'D': {'HUE_SAT': 1, 'GROUP_INPUT': 1, 'GROUP_OUTPUT': 1},
'T': {'HUE_SAT': 1, 'GROUP_INPUT': 1, 'GROUP_OUTPUT': 1},
'O': {'GROUP_INPUT': 3, 'MAPPING': 2, 'TEX_NOISE': 2, 'UVMAP': 2, 'VALTORGB': 3, 'GROUP_OUTPUT': 1, 'AMBIENT_OCCLUSION': 1, 'MIX': 4, 'REROUTE': 1, 'NEW_GEOMETRY': 1, 'VECT_MATH': 1},
'C': {'HUE_SAT': 1, 'GROUP_INPUT': 1, 'GROUP_OUTPUT': 1}, # 添加'C'用于演示
'L': {'GROUP_INPUT': 3, 'MAPPING': 2, 'TEX_NOISE': 2, 'UVMAP': 2, 'VALTORGB': 3, 'GROUP_OUTPUT': 1, 'AMBIENT_OCCLUSION': 1, 'MIX': 4, 'REROUTE': 1, 'NEW_GEOMETRY': 1, 'VECT_MATH': 1}, # 添加'L'用于演示
}
# 计算所有不重复的相似度对
pairwise_similarities = {}
for k1, k2 in combinations(my_dict.keys(), 2):
pairwise_similarities[(k1, k2)] = cosine_similarity(my_dict[k1], my_dict[k2])
print("初始计算的相似度对:")
print(pairwise_similarities)
# 示例输出可能为:
# {('A', 'D'): 1.0, ('A', 'T'): 1.0, ('A', 'O'): 0.0, ('A', 'C'): 1.0, ('A', 'L'): 0.0,
# ('D', 'T'): 1.0, ('D', 'O'): 0.0, ('D', 'C'): 1.0, ('D', 'L'): 0.0,
# ('T', 'O'): 0.0, ('T', 'C'): 1.0, ('T', 'L'): 0.0,
# ('O', 'C'): 0.0, ('O', 'L'): 1.0,
# ('C', 'L'): 0.0}解决上述冗余分组问题的优雅方法是将其建模为图论中的“最大团问题”(Maximal Clique Problem)。其核心思想是:
networkx 是一个强大的Python库,用于创建、操作和研究图的结构、动态和功能。它提供了高效的算法来查找图中的团。
以下是使用 networkx 库来解决该问题的步骤和代码示例:
首先,确保安装了 networkx: pip install networkx
from collections import defaultdict
import networkx as nx
# 1. 准备数据:使用前面计算的 pairwise_similarities
# pairwise_similarities 已经包含所有不重复的相似度对
# 2. 根据不同的相似度值构建图
graphs = defaultdict(nx.Graph)
for (p, q), s in pairwise_similarities.items():
# 考虑浮点数精度问题,可以对相似度进行适当的四舍五入或量化
# 例如,如果相似度是浮点数,直接作为键可能导致精度问题,
# 可以将其转换为整数或固定小数位数再作为键。
# 这里我们假设相似度值已经足够精确或不需要额外处理。
graphs[s].add_edge(p, q)
# 3. 查找每个图中的最大团
cliques = {}
for s, G in graphs.items():
# nx.find_cliques(G) 返回图中所有最大团的迭代器
# 每个团是一个节点列表
for clique in nx.find_cliques(G):
# 确保团的大小大于1,因为单个节点不能形成一个“组”
if len(clique) > 1:
# 将团转换为元组作为键,相似度作为值
# 注意:nx.find_cliques 找到的是最大团,即不能再通过添加节点扩大的团。
# 这可能意味着一个大团内部的子团不会被单独列出,但大团本身已经包含了这些关系。
cliques[tuple(sorted(clique))] = s # 排序元组以确保唯一性
print("\n分组后的相似度结果:")
# 打印结果,可以按相似度排序
sorted_cliques = sorted(cliques.items(), key=lambda item: item[1], reverse=True)
for group, sim_score in sorted_cliques:
print(f"{group}: {sim_score}")
代码解释:
通过将冗余分组问题转化为图论中的最大团问题,并利用 networkx 这样的专业库,我们能够以一种结构化、高效且易于理解的方式解决复杂的条目分组需求,极大地提升了代码的简洁性和可维护性。
以上就是如何高效分组字典中具有相同相似度的冗余条目的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号