
在处理来自文本文件的半结构化数据时,常见的挑战是如何准确地识别和关联不同层级的信息。例如,我们可能有一个包含机器名称、故障描述和相应解决方案的文本文件,其原始格式可能如下所示:
Balancim de corte hidráulico (a) ponte Defect 01 – Máquina não liga Botão de emergência acionado Problema no pedal Defeito 02 – O martelo não vai para os lados Botão de emergência acionado ...
在这种结构中,一个机器标题后面跟着多个故障及其解决方案。虽然这在人类阅读时容易理解,但对于程序解析而言,确定每个“Defeito”属于哪个“Balancim”,以及每个解决方案属于哪个“Defeito”,会变得复杂。尤其当文件行数众多(如4000行)时,维护这种隐式关联性需要复杂的逻辑来追踪上下文,容易出错且效率低下。
为了简化解析过程,最有效的方法是优化输入数据的结构,使其层级关系更加明确。核心思想是将每个独立的“机器-故障-解决方案”组合视为一个独立的逻辑块。这意味着即使同一台机器有多个故障,每个故障也应独立地与机器名称关联。
经过优化的文本文件结构示例如下:
Balancim de corte hidraulico (a) ponte Defeito 01 - Maquina nao liga Botao de emergencia acionado Balancim de corte hidraulico (a) ponte Defeito 02 - O martelo nao vai para os lados Botao de emergencia acionado Balancim de Corte hidraulico Braco (Tecnomaq) Defeito 01 - O martelo sobe e desce lento Filtro de óleo entupido Balancim de Corte hidraulico Braco (Tecnomaq) Defeito 02 - O martelo sobe todo e aumenta o ruido do balancim Operador regulou muito alto o martelo
在这个优化后的结构中,每个机器故障条目都以机器名称开头,接着是故障描述,然后是解决方案。不同的机器故障条目之间通过空行(\n\n)进行分隔。这种显式的分隔和重复的机器名称使得程序能够将每个块独立地解析为一个完整的“机器-故障-解决方案”单元,极大地简化了数据提取逻辑。
立即学习“Python免费学习笔记(深入)”;
有了优化后的数据结构,我们可以使用Python轻松地将其解析为所需的嵌套字典格式。目标是生成一个如下所示的字典:
machine_dict = {
'Balancim de corte hidráulico (a) ponte': {
'Defect 01 – Máquina não liga': ['Botão de emergência acionado', 'Problema no pedal'],
'Defeito 02 – O martelo não vai para os lados': ['Botão de emergência acionado']
}
# ... 其他机器和故障
}以下是实现此解析的Python代码:
import os
# 假设文件名为 manual.txt 位于当前目录
file_path = 'manual.txt'
# 创建一个示例文件,用于演示
# 在实际应用中,您会直接读取已有的 manual.txt
sample_content = """Balancim de corte hidraulico (a) ponte
Defeito 01 - Maquina nao liga
Botao de emergencia acionado
Problema no pedal
Balancim de corte hidraulico (a) ponte
Defeito 02 - O martelo nao vai para os lados
Botao de emergencia acionado
Balancim de Corte hidraulico Braco (Tecnomaq)
Defeito 01 - O martelo sobe e desce lento
Filtro de oleo entupido
Balancim de Corte hidraulico Braco (Tecnomaq)
Defeito 02 - O martelo sobe todo e aumenta o ruido do balancim
Operador regulou muito alto o martelo
"""
with open(file_path, 'w', encoding='utf-8') as f:
f.write(sample_content)
# 开始解析文件
maqs_problem_solution = {}
try:
with open(file_path, 'r', encoding='utf-8') as manual_file:
manual_tpm = manual_file.read()
# 1. 按 '\n\n' 分割成块,每个块代表一个机器故障条目
# 过滤掉空的块
maqs_defeito_blocks = [block.strip() for block in manual_tpm.split('\n\n') if block.strip()]
for block_content in maqs_defeito_blocks:
# 2. 将每个块按 '\n' 分割成行
lines = [line.strip() for line in block_content.split('\n') if line.strip()]
if len(lines) < 2:
# 确保至少有机器标题和故障描述
print(f"警告: 跳过格式不正确的块: {block_content}")
continue
machine_title = lines[0]
defect = lines[1]
solutions = lines[2:] # 剩余的行都是解决方案
# 3. 构建嵌套字典
if machine_title not in maqs_problem_solution:
maqs_problem_solution[machine_title] = {}
maqs_problem_solution[machine_title][defect] = solutions
print("解析完成,结果字典如下:")
import json
print(json.dumps(maqs_problem_solution, indent=4, ensure_ascii=False))
except FileNotFoundError:
print(f"错误: 文件 '{file_path}' 未找到。请确保文件路径正确。")
except Exception as e:
print(f"处理文件时发生错误: {e}")
finally:
# 清理:删除示例文件
if os.path.exists(file_path):
os.remove(file_path)代码解析:
文件读取:
按块分割:
按行解析每个块:
构建嵌套字典:
运行上述代码,将得到一个结构清晰的嵌套字典,示例如下:
{
"Balancim de corte hidraulico (a) ponte": {
"Defeito 01 - Maquina nao liga": [
"Botao de emergencia acionado",
"Problema no pedal"
],
"Defeito 02 - O martelo nao vai para os lados": [
"Botao de emergencia acionado"
]
},
"Balancim de Corte hidraulico Braco (Tecnomaq)": {
"Defeito 01 - O martelo sobe e desce lento": [
"Filtro de oleo entupido"
],
"Defeito 02 - O martelo sobe todo e aumenta o ruido do balancim": [
"Operador regulou muito alto o martelo"
]
}
}本教程展示了如何通过优化输入数据结构来简化复杂的文本解析任务。以下是一些关键的总结和最佳实践:
通过遵循这些原则,您可以更有效地处理各种半结构化文本数据,并将其转换为程序友好的数据结构。
以上就是Python解析文本文件至嵌套字典:优化数据结构与代码实现的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号