Langchain FAISS 相似度计算结果偏低问题排查与优化-Python教程-PHP中文网

Langchain FAISS 相似度计算结果偏低问题排查与优化

霞舞

发布： 2025-07-30 22:02:01

原创

582人浏览过

langchain faiss 相似度计算结果偏低问题排查与优化

在使用 Langchain 的 FAISS 向量数据库和 BGE embedding 模型进行相似度搜索时，即使查询语句存在于向量库中，相似度得分也可能偏低。本文将探讨可能的原因，并提供使用 OpenAI embeddings 作为替代方案的示例代码，帮助开发者提升相似度搜索的准确性。

问题分析

使用 Langchain 的 FAISS 结合 HuggingFace BGE 模型进行语义相似度搜索时，得到的结果相似度得分较低，即使查询语句完全匹配数据库中的内容。这通常涉及以下几个方面：

Embedding 模型选择： BGE 模型可能在特定领域或数据集上表现不佳。不同的 embedding 模型具有不同的训练数据和架构，适用于不同的任务。
距离度量方式： FAISS 默认使用 L2 距离，而某些 embedding 模型可能更适合使用余弦相似度。虽然代码中设置了 normalize_embeddings=True，但实际效果可能受到模型本身实现的影响。
数据预处理： 文本数据预处理（如分词、去除停用词等）可能会影响 embedding 的质量。
FAISS 索引参数： FAISS 索引的构建参数（如 nlist, nprobe）可能会影响搜索的准确性和效率。

解决方案

以下提供一种使用 OpenAI embeddings 作为替代方案的示例，并对比结果：

示例代码：

from langchain.document_loaders import TextLoader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import FAISS

# 初始化 OpenAI embeddings (需要配置 OpenAI API Key)
embeddings = OpenAIEmbeddings()

# 加载文本数据
loader = TextLoader("./text.txt", encoding="utf-8")  # 替换为你的文本文件路径
documents = loader.load()

# 构建 FAISS 索引
db = FAISS.from_documents(documents, embeddings)

# 查询语句
query = '无纸化发送失败?'

# 执行相似度搜索
res = db.similarity_search_with_score(query, k=3)

# 打印结果
print(res)

query2 = '纸化发送失败?'
res2 = db.similarity_search_with_score(query2, k=3)
print(res2)

登录后复制

代码解释：

超级简历WonderCV

免费求职简历模版下载制作，应届生职场人必备简历制作神器

271

查看详情

OpenAIEmbeddings()： 初始化 OpenAI 的 embedding 模型。你需要设置 OPENAI_API_KEY 环境变量。
TextLoader()： 加载包含文本数据的文件。请确保文件编码为 UTF-8。
FAISS.from_documents()： 使用加载的文档和 OpenAI embeddings 构建 FAISS 索引。
db.similarity_search_with_score()： 执行相似度搜索，返回最相似的 k 个文档及其得分。

预期结果：

对于完全匹配的查询，使用 OpenAI embeddings 应该能得到更高的相似度得分（接近 0，因为 FAISS 默认使用 L2 距离，0 代表完全匹配）。

注意事项：

OpenAI API Key： 使用 OpenAI embeddings 需要有效的 OpenAI API Key，并确保你的账户有足够的额度。
距离度量： FAISS 默认使用 L2 距离。如果使用余弦相似度，可以在构建索引时指定。
文本预处理： 根据实际情况进行文本预处理，如去除停用词、标点符号等，以提高 embedding 的质量。
模型选择： 根据你的应用场景和数据特点，选择合适的 embedding 模型。可以尝试不同的模型，并比较它们的性能。
数据切分： 使用 CharacterTextSplitter 等工具将长文本切分成更小的块，可以提高搜索的准确性。

总结

当使用 Langchain FAISS 进行相似度搜索时，如果遇到相似度得分偏低的问题，可以从 embedding 模型选择、距离度量方式、数据预处理和 FAISS 索引参数等方面进行排查和优化。尝试使用不同的 embedding 模型，如 OpenAI embeddings，并根据实际情况调整参数，可以有效提高相似度搜索的准确性。同时，注意文本预处理和数据切分，以获得更好的效果。

以上就是Langchain FAISS 相似度计算结果偏低问题排查与优化的详细内容，更多请关注php中文网其它相关文章！