实施相似性搜索算法-Python教程-PHP中文网

实施相似性搜索算法

霞舞

发布： 2024-10-17 08:03:21

转载

775人浏览过

实施相似性搜索算法

微撰

AI智能写作平台

207

查看详情

获取数据

import pandas as pd


descripciones = [
        'all users must reset passwords every 90 days.',
        'passwords need to be reset by all users every 90 days.',
        'admin access should be restricted.',
        'passwords must change for users every 90 days.',
        'passwords must change for users every 80 days.'
    ]

# cargar el dataset
data = pd.dataframe({
    'rule_id': range(1, len(descripciones) + 1),
    'description': descripciones
})

登录后复制

词汇相似度

from sklearn.feature_extraction.text import tfidfvectorizer
from sklearn.metrics.pairwise import cosine_similarity

!
# vectorización de las descripciones con tf-idf
vectorizer = tfidfvectorizer().fit_transform(data['description'])

# calcular la matriz de similitud de coseno
cosine_sim_matrix = cosine_similarity(vectorizer)

# crear un diccionario para almacenar las relaciones sin duplicados
def find_related_rules(matrix, rule_ids, threshold=0.8):
    related_rules = {}
    seen_pairs = set()  # para evitar duplicados de la forma (a, b) = (b, a)

    for i in range(len(matrix)):
        related = []
        for j in range(i + 1, len(matrix)):  # j comienza en i + 1 para evitar duplicados
            if matrix[i, j] >= threshold:
                pair = (rule_ids[i], rule_ids[j])
                if pair not in seen_pairs:
                    seen_pairs.add(pair)
                    related.append((rule_ids[j], round(matrix[i, j], 2)))
        if related:
            related_rules[rule_ids[i]] = related

    return related_rules

# aplicar la función para encontrar reglas relacionadas
related_rules = find_related_rules(cosine_sim_matrix, data['rule_id'].tolist(), threshold=0.8)

# mostrar las reglas relacionadas
print("reglas relacionadas por similitud:")
for rule, relations in related_rules.items():
    print(f"rule {rule} es similar a:")
    for related_rule, score in relations:
        print(f"  - rule {related_rule} con similitud de {score}")

登录后复制

语义相似度

!pip install sentence-transformers
from sentence_transformers import SentenceTransformer, util


# Load the pre-trained model for generating embeddings
model = SentenceTransformer('all-MiniLM-L6-v2')

# Generate sentence embeddings for each rule description
embeddings = model.encode(data['Description'], convert_to_tensor=True)

# Compute the semantic similarity matrix
cosine_sim_matrix = util.cos_sim(embeddings, embeddings).cpu().numpy()

# Function to find related rules based on semantic similarity
def find_related_rules(matrix, rule_ids, threshold=0.8):
    related_rules = {}
    seen_pairs = set()  # To avoid duplicates of the form (A, B) = (B, A)

    for i in range(len(matrix)):
        related = []
        for j in range(i + 1, len(matrix)):  # Only consider upper triangular matrix
            if matrix[i, j] >= threshold:
                pair = (rule_ids[i], rule_ids[j])
                if pair not in seen_pairs:
                    seen_pairs.add(pair)
                    related.append((rule_ids[j], round(matrix[i, j], 2)))
        if related:
            related_rules[rule_ids[i]] = related

    return related_rules

# Apply the function to find related rules
related_rules = find_related_rules(cosine_sim_matrix, data['Rule_ID'].tolist(), threshold=0.8)

# Display the related rules
print("Reglas relacionadas por similitud semántica:")
for rule, relations in related_rules.items():
    print(f"Rule {rule} es similar a:")
    for related_rule, score in relations:
        print(f"  - Rule {related_rule} con similitud de {score}")

登录后复制

以上就是实施相似性搜索算法的详细内容，更多请关注php中文网其它相关文章！

大家都在看：

pyodbc查询MS Access时间数据类型：理解与处理使用pyodbc处理MS Access时间数据类型的解析与提取 pyodbc 读取 MS Access 时间类型数据的行为解析与处理使用pyodbc处理MS Access数据库中的时间数据类型：理解与提取如何用Python操作Access数据库？pyodbc连接