合并多个XML文件为一个：Python实现指南-Python教程-PHP中文网

合并多个XML文件为一个：Python实现指南

DDD

发布： 2025-10-26 12:13:23

原创

946人浏览过

合并多个xml文件为一个：python实现指南

本文档旨在指导读者如何使用Python将多个XML文件合并成一个单独的文件，以便进行关键词分析或其他处理。我们将通过requests库获取XML内容，并使用lxml库确保最终合并的文件是格式良好的XML。此外，还会讨论处理XML声明和确保代码健壮性的方法。

1. 简介

在数据处理和分析中，经常需要从多个来源获取数据，并将它们整合到一个文件中。对于XML数据，简单地将多个文件拼接在一起可能会导致格式错误，从而影响后续的分析工作。本教程将介绍如何使用Python高效且正确地合并多个XML文件。

2. 准备工作

在开始之前，请确保已经安装了以下Python库：

requests: 用于从URL获取XML内容。
lxml: 用于解析和验证XML格式。

可以使用以下命令安装这些库：

立即学习“Python免费学习笔记（深入）”；

pip install requests lxml

登录后复制

3. 实现方法

以下是一个完整的Python脚本，用于从多个URL下载XML文件，并将它们合并到一个格式良好的XML文件中：

import requests
from lxml import etree

xml_urls = [
    "https://nsearchives.nseindia.com/corporate/xbrl/CG_92090_946801_11102023020327_WEB.xml",
    "https://nsearchives.nseindia.com/corporate/xbrl/CG_92138_947508_11102023050314_WEB.xml",
]

headers = {
    "User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:120.0) Gecko/20100101 Firefox/120.0"
}

xmldecl = ''
response = ''
with open("output.xml", "w", encoding="utf-8") as f_out:
    for url in xml_urls:
        # make a single split, i.e. at the first \n only
        body = requests.get(url, headers=headers).text.split('\n', 1)
        xmldecl = body[0]
        response += body[1]
    print(f"{xmldecl}\n<root>\n{response}</root>", file=f_out)

# should not rise any exception
t = etree.parse('output.xml')
print(t.getroot().tag)

登录后复制

代码解释：

AI帮个忙

多功能AI小工具，帮你快速生成周报、日报、邮、简历等

查看详情

导入必要的库： 导入requests用于网络请求，lxml.etree用于XML处理。
定义XML URL列表： xml_urls 列表包含了需要合并的XML文件的URL。
设置请求头： headers 字典模拟浏览器请求，避免被服务器拒绝。
循环下载和合并：
- 使用 requests.get() 获取每个URL的内容。
- 使用 text.split('\n', 1) 分割XML文档，分离XML声明。
- 将XML声明存储在 xmldecl 变量中，并将XML内容添加到 response 字符串中。
写入合并后的XML： 将XML声明、根元素 <root> 和合并后的XML内容写入到 output.xml 文件中。
验证XML格式： 使用 lxml.etree.parse() 解析 output.xml 文件，如果解析成功，则说明合并后的XML格式正确。

4. 处理XML声明

XML文档通常以XML声明开始，例如 <?xml version="1.0" encoding="UTF-8"?>。在合并XML文件时，需要注意XML声明的处理。上面的代码通过分割字符串的方式提取了第一个XML文件的声明，并将其添加到最终的合并文件中。

如果XML文档的格式不一致，split() 方法可能无法正确分割XML声明。在这种情况下，可以使用正则表达式或字符串切片来提取XML声明。

例如，如果XML声明的长度固定为38个字符，可以使用以下代码：

body = requests.get(url, headers=headers).text
xmldecl = body[:38]
response += body[38:]

登录后复制

5. 错误处理

在实际应用中，网络请求可能会失败，或者XML文件可能存在格式错误。为了确保代码的健壮性，需要添加适当的错误处理机制。

例如，可以使用 try...except 块来捕获网络请求异常：

try:
    response = requests.get(url, headers=headers)
    response.raise_for_status()  # 检查HTTP状态码
    body = response.text.split('\n', 1)
    xmldecl = body[0]
    response += body[1]
except requests.exceptions.RequestException as e:
    print(f"Error fetching {url}: {e}")

登录后复制