
在与restful api交互时,我们经常需要根据特定条件检索数据。当这些条件涉及字符串的模糊匹配,例如查找一个人名可能存在的多种拼写变体(如“john smith”、“jonathan smith”、“jon smith”)或错别字时,传统的精确匹配方法显然力不从心。
许多REST API的查询参数设计为精确匹配或支持有限的通配符(如*),但通常不直接支持复杂的正则表达式。这意味着,我们无法简单地将一个像J.*n Smith这样的正则表达式直接作为API请求参数传递,期望API服务器能执行高级的模式匹配。尝试这样做通常会导致API返回错误或不符合预期的结果,因为API服务器会将整个正则表达式字符串视为一个字面值进行匹配,而非解析其模式含义。
例如,一个典型的API请求可能如下所示:
import requests
import json
# 假设API参数只支持精确匹配
Payee_Parameter = {
"contribution_payee": "John Smith", # 只能匹配精确的“John Smith”
"dt_posted": "ascending",
"key": "YOUR_API_KEY" # 替换为你的API密钥
}
ContributionsLink = "https://lda.senate.gov/api/v1/contributions/"
response = requests.get(ContributionsLink, params=Payee_Parameter)
data = response.json()
# ... 后续处理 ...这种方法无法捕获“Jonathan Smith”或“Jon Smith”等变体,导致数据遗漏。
由于API端通常不直接支持复杂的模糊匹配逻辑,一个有效的策略是将数据检索过程分为两步:
立即学习“Python免费学习笔记(深入)”;
模糊匹配(Fuzzy Matching),也称为近似字符串匹配,是一种通过计算字符串之间的相似度来识别潜在匹配项的技术。它能够容忍拼写错误、字符插入、删除或替换等差异,从而有效地处理不规范或不完整的数据。
Python的fuzzywuzzy库是实现模糊字符串匹配的流行选择。它基于Levenshtein距离(编辑距离)算法,提供了多种计算字符串相似度的方法。
首先,确保你的环境中安装了fuzzywuzzy库。如果未安装,可以通过pip进行安装:
pip install fuzzywuzzy
fuzzywuzzy 依赖于 python-Levenshtein 库以获得更快的性能,建议也一并安装:
pip install python-Levenshtein
fuzzywuzzy提供了多种函数来计算字符串相似度,返回一个0到100之间的整数分数,分数越高表示相似度越高。
示例:基本相似度计算
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
print(fuzz.ratio("John Doe", "Joe Dow")) # 输出: 67
print(fuzz.ratio("John Doe", "John M. Doe")) # 输出: 84
print(fuzz.ratio("John Doe", "Billy Jean")) # 输出: 22
print(fuzz.partial_ratio("apple pie", "apple")) # 输出: 100 (因为"apple"是"apple pie"的一部分)
print(fuzz.token_sort_ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy bear was a")) # 输出: 100 (忽略词序)将fuzzywuzzy整合到API数据处理流程中,其核心思想是:先从API获取原始数据,然后对这些数据进行本地筛选。
假设我们通过API获取了包含捐款人姓名的记录列表,现在需要找出所有与“John Smith”相似的捐款记录。
import requests
import json
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
# 目标匹配的姓名
target_candidate_name = "John Smith"
# 相似度阈值:只有相似度达到或超过这个值才被认为是匹配
similarity_threshold = 80
# 模拟从API获取的数据。
# 实际应用中,这里会是一个API调用,可能通过宽泛的查询参数获取大量数据。
# 例如:
# Payee_Parameter = {
# "contribution_payee": "Smith", # 宽泛查询,例如只用姓氏
# "dt_posted": "ascending",
# "key": "YOUR_API_KEY"
# }
# ContributionsLink = "https://lda.senate.gov/api/v1/contributions/"
# response = requests.get(ContributionsLink, params=Payee_Parameter)
# api_data = response.json()
# api_data_results = api_data.get("results", []) # 假设数据在"results"键下
# 为了演示,我们使用一个硬编码的列表来模拟API返回的数据
api_data_results = [
{"payee_name": "John Smith", "amount": 100, "id": "rec1"},
{"payee_name": "Jonathan Smith", "amount": 150, "id": "rec2"},
{"payee_name": "Jon Smith", "amount": 200, "id": "rec3"},
{"payee_name": "Johnathon Smith", "amount": 50, "id": "rec4"},
{"payee_name": "Jane Doe", "amount": 120, "id": "rec5"},
{"payee_name": "Jon Smtih", "amount": 75, "id": "rec6"}, # 拼写错误示例
{"payee_name": "J Smith", "amount": 80, "id": "rec7"},
{"payee_name": "Johnny Smith", "amount": 90, "id": "rec8"},
]
matched_contributions = []
print(f"开始匹配 '{target_candidate_name}' 的捐款记录 (相似度阈值 >= {similarity_threshold})...")
for record in api_data_results:
payee_name_from_api = record.get("payee_name")
if payee_name_from_api:
# 转换为小写进行不区分大小写匹配,提高匹配鲁棒性
score = fuzz.ratio(target_candidate_name.lower(), payee_name_from_api.lower())
if score >= similarity_threshold:
matched_contributions.append({
"original_payee_name": payee_name_from_api,
"amount": record.get("amount"),
"similarity_score": score,
"record_id": record.get("id")
})
# 打印匹配结果
if matched_contributions:
print("\n匹配到的捐款记录:")
for contribution in matched_contributions:
print(f"- 姓名: {contribution['original_payee_name']}, 金额: {contribution['amount']}, 相似度: {contribution['similarity_score']}")
else:
print("未找到符合条件的匹配记录。")
# 另一个高级用法:使用 process.extract 从一个列表中查找最佳匹配
# 假设我们想从所有已知的候选人姓名中找出与“John Smith”最接近的几个
all_payee_names_from_api = [record.get("payee_name") for record in api_data_results if record.get("payee_name")]
if all_payee_names_from_api:
print(f"\n使用 process.extract 查找与 '{target_candidate_name}' 最接近的几个姓名:")
# limit=3 表示返回前3个最相似的匹配
top_matches = process.extract(target_candidate_name, all_payee_names_from_api, limit=3, scorer=fuzz.ratio)
for match in top_matches:
# match 是一个元组 (匹配到的字符串, 相似度分数)
print(f"- {match[0]} (相似度: {match[1]})")
else:
print("\nAPI数据中没有可供匹配的姓名列表。")在面对REST API不直接支持复杂模糊查询的场景时,采用客户端模糊匹配是一种强大而灵活的解决方案。通过结合Python的requests库进行API数据获取和fuzzywuzzy库进行本地数据处理,我们能够有效地识别和处理因拼写变体或错别字导致的数据不一致性,从而提高数据匹配的准确性和完整性。合理选择相似度阈值,并结合数据预处理和性能优化策略,将使这一方法在实际应用中发挥最大的效益。
以上就是Python REST API数据清洗:利用模糊匹配识别姓名拼写变体与错别字的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号