python中怎么解析XML文件？-Python教程-PHP中文网

使用ElementTree解析XML时，核心技巧包括：利用ET.parse()或ET.fromstring()加载数据，通过getroot()获取根元素，遍历子元素并访问tag、attrib和text属性；使用find、findall和iter方法进行元素查找，结合命名空间字典处理带命名空间的标签，推荐用get()安全获取属性值。

python中怎么解析xml文件？

在Python里解析XML文件，最常用的方法是使用内置的

xml.etree.ElementTree

登录后复制

模块，它提供了一种轻量级且高效的方式来处理XML数据。对于更复杂或者对性能有更高要求的场景，

lxml

登录后复制

库则是一个功能更强大、速度更快的选择。说白了，看你需求，一般情况

ElementTree

登录后复制

就够用了。

解决方案

要解析XML文件，我们通常会加载整个XML文档到内存中，然后像遍历树一样去访问其中的元素、属性和文本内容。

首先，你需要导入

ElementTree

登录后复制

模块，通常我们会给它一个别名

ET

登录后复制

，这样用起来更简洁。

import xml.etree.ElementTree as ET

登录后复制

从文件解析： 如果你有一个XML文件（比如

data.xml

登录后复制

），你可以这样加载它：

# data.xml 内容示例:
# <root>
#     <item id="1">
#         <name>苹果</name>
#         <price currency="USD">1.99</price>
#     </item>
#     <item id="2">
#         <name>香蕉</name>
#         <price currency="USD">0.79</price>
#     </item>
# </root>

try:
    tree = ET.parse('data.xml')
    root = tree.getroot() # 获取根元素
except FileNotFoundError:
    print("错误：data.xml 文件未找到。")
except ET.ParseError as e:
    print(f"错误：解析XML文件时出错 - {e}")

登录后复制

从字符串解析： 如果你的XML数据是一个字符串，你可以用

ET.fromstring()

登录后复制

方法：

xml_string = """
<root>
    <item id="3">
        <name>橙子</name>
        <price currency="EUR">1.20</price>
    </item>
</root>
"""
root = ET.fromstring(xml_string)

登录后复制

获取到

root

登录后复制

元素后，就可以开始遍历和提取数据了：

立即学习“Python免费学习笔记（深入）”；

print(f"根元素标签: {root.tag}")

# 遍历所有子元素
for child in root:
    print(f"子元素标签: {child.tag}, 属性: {child.attrib}") # attrib 返回一个字典

    # 获取特定子元素的文本内容
    name_element = child.find('name')
    if name_element is not None:
        print(f"  商品名称: {name_element.text}")

    price_element = child.find('price')
    if price_element is not None:
        print(f"  价格: {price_element.text}, 货币: {price_element.attrib.get('currency')}")

# 直接查找所有符合条件的元素
all_items = root.findall('item')
print(f"\n找到了 {len(all_items)} 个商品。")

登录后复制

使用

ElementTree

登录后复制

解析XML文件的核心技巧有哪些？

在我的实践中，掌握

ElementTree

登录后复制

的核心技巧，主要是理解它如何将XML文档映射为Python对象，以及如何高效地进行导航和数据提取。最关键的几点是：

ET.parse()
登录后复制
和
ET.fromstring()
登录后复制
：这是入口点。
```
parse
```
登录后复制
用于文件，
```
fromstring
```
登录后复制
用于内存中的字符串。搞清楚你数据的来源，选对方法是第一步。
getroot()
登录后复制
：拿到整个XML树的“根”，所有操作都从这里开始。就像你进入一栋房子，得先找到大门。
元素对象（Element Object）： 这是
```
ElementTree
```
登录后复制
的核心。每个XML标签被解析后，都会变成一个
```
Element
```
登录后复制
对象。这个对象有几个重要的属性：
- ```
tag
```
  登录后复制
  ：元素的标签名，比如
```
<name>
```
  登录后复制
  的
```
tag
```
  登录后复制
  就是
```
'name'
```
  登录后复制
  。
- ```
attrib
```
  登录后复制
  ：一个字典，存储了元素的所有属性。比如
```
<price currency="USD">
```
  登录后复制
  的
```
attrib
```
  登录后复制
  就是
```
{'currency': 'USD'}
```
  登录后复制
  。
- ```
text
```
  登录后复制
  ：元素开始标签和结束标签之间的文本内容。例如
```
<name>苹果</name>
```
  登录后复制
  的
```
text
```
  登录后复制
  就是
```
'苹果'
```
  登录后复制
  。如果元素内部还有子元素，
```
text
```
  登录后复制
  只会包含紧跟在开标签后的文本。
- ```
tail
```
  登录后复制
  ：元素结束标签后的文本内容。这个比较少用，但在处理混合内容（text-interspersed-with-tags）时会有用。
导航方法：
- 直接迭代：
```
for child in parent_element:
```
  登录后复制
  这样可以遍历一个元素的所有直接子元素。这是最直观的。
- find(tag)
  登录后复制
  ：查找当前元素的第一个匹配
```
tag
```
  登录后复制
  的直接子元素。如果找到多个，它只返回第一个。
- findall(tag)
  登录后复制
  ：查找当前元素所有匹配
```
tag
```
  登录后复制
  的直接子元素，返回一个列表。这个方法非常常用，因为它能获取所有相同类型的子节点。
- iter(tag=None)
  登录后复制
  ：这是一个强大的遍历器，可以递归地遍历当前元素及其所有后代元素。如果你想找到XML文档中所有某个特定标签的元素，无论它在哪个层级，
```
iter()
```
  登录后复制
  就非常方便。例如
```
root.iter('name')
```
  登录后复制
  会找到所有名为
```
name
```
  登录后复制
  的元素。
- XPath支持：
```
ElementTree
```
  登录后复制
  对XPath的支持比较基础，主要限于路径表达式。例如，
```
root.findall('./item/name')
```
  登录后复制
  可以找到所有
```
item
```
  登录后复制
  下的
```
name
```
  登录后复制
  元素。但对于更复杂的XPath查询（比如条件过滤、属性值匹配），它就显得力不从心了，这时候
```
lxml
```
  登录后复制
  的优势就体现出来了。

记住，

ElementTree

登录后复制

的设计哲学就是“简单够用”，所以它不会像

lxml

登录后复制

那样提供全套的XPath/XSLT支持，但在绝大多数场景下，这些基础方法已经足够我们高效地完成任务了。

处理大型XML文件时，

ElementTree

登录后复制

和

lxml

登录后复制

各有何优劣？

处理大型XML文件时，性能和内存占用就成了绕不开的话题。

ElementTree

登录后复制

和

lxml

登录后复制

在这方面各有特点，选择哪个取决于你的具体需求和文件大小。

xml.etree.ElementTree

登录后复制

的优劣：

优点：
- 内置： 无需安装任何第三方库，Python环境自带，开箱即用。这在部署环境受限或者希望减少依赖时是个大优势。
- 简单易学： API设计相对简洁，对于熟悉Python的人来说上手很快。
- 足够日常使用： 对于中小型的XML文件，或者XML结构比较规整、查询需求不复杂的场景，
```
ElementTree
```
  登录后复制
  的性能完全够用。
缺点：
- 内存占用：
```
ElementTree
```
  登录后复制
  默认是“DOM-like”解析器，它会一次性将整个XML文档加载到内存中，构建成一个完整的树形结构。对于几百MB甚至GB级别的超大型XML文件，这会导致巨大的内存消耗，可能直接让你的程序崩溃。
- 性能： 相较于
```
lxml
```
  登录后复制
  ，
```
ElementTree
```
  登录后复制
  在解析速度上通常会慢一些，尤其是在处理大量数据时。
- XPath支持有限： 它的XPath支持比较基础，很多高级的XPath功能（如函数、轴、复杂谓词）都无法使用，这在需要复杂查询时会非常不便。
- 缺乏SAX-like解析：
```
ElementTree
```
  登录后复制
  本身不提供事件驱动（SAX-like）的增量解析方式，无法在读取XML的同时处理数据，这进一步限制了它处理大文件的能力。

lxml

登录后复制

的优劣：

优点：
- 性能卓越：
```
lxml
```
  登录后复制
  底层使用了C语言实现的
```
libxml2
```
  登录后复制
  和
```
libxslt
```
  登录后复制
  库，这使得它在解析速度和内存效率上都远超
```
ElementTree
```
  登录后复制
  。对于大型XML文件，它的解析速度可以快好几倍。
- 强大的XPath/XSLT支持：
```
lxml
```
  登录后复制
  提供了几乎完整的XPath 1.0/2.0支持，以及XSLT转换功能。这意味着你可以用非常强大和灵活的查询语言来定位和提取XML数据，极大地简化了复杂的数据处理逻辑。
- 增量解析（
  iterparse
  登录后复制
  ）：
```
lxml
```
  登录后复制
  提供了
```
iterparse
```
  登录后复制
  功能，这是一种事件驱动（SAX-like）的解析方式。它允许你在解析XML文档的同时处理元素，而无需将整个文档加载到内存。这对于处理超大型XML文件（例如几GB的文件）至关重要，因为它能显著降低内存占用。
- HTML解析：
```
lxml
```
  登录后复制
  也能高效解析HTML文档，并提供类似XML的API进行操作，这在网络爬虫等场景下非常有用。
缺点：
- 外部依赖： 需要通过
```
pip install lxml
```
  登录后复制
  安装，并且依赖底层的C库。在某些特定环境（如没有编译工具链的轻量级容器）中安装可能会遇到一些麻烦。
- API略复杂： 相对于
```
ElementTree
```
  登录后复制
  ，
```
lxml
```
  登录后复制
  的API更丰富，功能也更多，这可能意味着学习曲线稍陡峭一些，尤其是在使用高级功能时。

总结：

巧文书

巧文书是一款AI写标书、AI写方案的产品。通过自研的先进AI大模型，精准解析招标文件，智能生成投标内容。

查看详情

我的经验是，如果你的XML文件不大（比如几十MB以内），并且查询需求不复杂，

ElementTree

登录后复制

是首选，因为它简单、无依赖。但一旦你开始遇到内存溢出、解析速度慢或者需要复杂XPath查询时，毫不犹豫地切换到

lxml

登录后复制

。它在处理大型、复杂XML文档方面，几乎是Python生态系统中的不二之选。

如何在解析XML时处理命名空间（Namespaces）和属性（Attributes）？

处理XML的命名空间和属性是日常工作中经常遇到的情况，尤其是在集成不同系统或者处理标准XML格式（如SOAP、RSS、Atom）时。

处理属性（Attributes）：

属性相对直观，每个

Element

登录后复制

对象都有一个

attrib

登录后复制

属性，它是一个字典，键是属性名，值是属性值。

import xml.etree.ElementTree as ET

xml_data = """
<root>
    <user id="123" status="active">
        <name lang="en">John Doe</name>
        <email>john.doe@example.com</email>
    </user>
    <user id="456" status="inactive">
        <name lang="zh">张三</name>
    </user>
</root>
"""

root = ET.fromstring(xml_data)

for user in root.findall('user'):
    user_id = user.get('id') # 使用get()方法获取属性，更安全，如果属性不存在返回None
    user_status = user.attrib.get('status', 'unknown') # 也可以使用字典的get方法，并提供默认值

    print(f"User ID: {user_id}, Status: {user_status}")

    name_element = user.find('name')
    if name_element is not None:
        name_text = name_element.text
        name_lang = name_element.get('lang') # 获取name元素的lang属性
        print(f"  Name: {name_text}, Language: {name_lang}")

登录后复制

这里我更推荐使用

element.get('attribute_name')

登录后复制

来获取属性，因为它在属性不存在时会返回

None

登录后复制

，避免了直接访问

element.attrib['attribute_name']

登录后复制

可能导致的

KeyError

登录后复制

。

处理命名空间（Namespaces）：

命名空间是XML中一个稍微复杂但非常重要的概念，它用来避免元素和属性名称冲突。当XML文档中包含命名空间时，解析起来就需要一些特别的处理。

ElementTree

登录后复制

在内部会将带命名空间的标签名表示为

{namespace_uri}local_name

登录后复制

的形式。例如，如果XML中有

<ns:item xmlns:ns="http://example.com/ns">

登录后复制

，那么

item

登录后复制

标签的内部表示就是

{http://example.com/ns}item

登录后复制

。

import xml.etree.ElementTree as ET

xml_with_ns = """
<data xmlns="http://default.com/ns" xmlns:prod="http://products.com/ns">
    <prod:item prod:id="A101">
        <prod:name>Laptop</prod:name>
        <price>1200</price>
    </prod:item>
    <prod:item prod:id="A102">
        <prod:name>Mouse</prod:name>
        <price>25</price>
    </prod:item>
    <info>Some general information</info>
</data>
"""

root = ET.fromstring(xml_with_ns)

# 1. 明确知道命名空间URI时：
# 注意：默认命名空间也会被ElementTree以URI形式处理
print("--- 明确知道命名空间URI ---")
default_ns_tag = "{http://default.com/ns}info"
info_element = root.find(default_ns_tag)
if info_element is not None:
    print(f"Info (default NS): {info_element.text}")

# 对于带前缀的命名空间，同样需要使用完整的URI
prod_item_tag = "{http://products.com/ns}item"
for item in root.findall(prod_item_tag):
    prod_id = item.get('{http://products.com/ns}id') # 属性的命名空间也要完整表示
    prod_name_element = item.find('{http://products.com/ns}name')
    price_element = item.find('{http://default.com/ns}price') # 注意这里price在默认命名空间下

    name_text = prod_name_element.text if prod_name_element is not None else "N/A"
    price_text = price_element.text if price_element is not None else "N/A"
    print(f"Product ID: {prod_id}, Name: {name_text}, Price: {price_text}")

# 2. 使用命名空间字典进行查找 (更推荐的方式，尤其是当命名空间前缀在XML中不固定时)
# 需要创建一个字典，将前缀映射到URI
namespaces = {
    'd': "http://default.com/ns", # 'd' 是我们自己定义的别名，可以随意取
    'p': "http://products.com/ns"
}

print("\n--- 使用命名空间字典 ---")
# findall() 和 find() 方法可以接受一个命名空间字典作为第二个参数
# 这样，你就可以使用带有前缀的标签名进行查找了
for item in root.findall('p:item', namespaces):
    # 获取带命名空间的属性，同样需要使用前缀
    prod_id = item.get(f"{{{namespaces['p']}}}id") # 或者更直接的 item.get('{http://products.com/ns}id')

    prod_name_element = item.find('p:name', namespaces)
    price_element = item.find('d:price', namespaces) # price在默认命名空间下，所以用'd'

    name_text = prod_name_element.text if prod_name_element is not None else "N/A"
    price_text = price_element.text if price_element is not None else "N/A"
    print(f"Product ID: {prod_id}, Name: {name_text}, Price: {price_text}")

登录后复制

关键点：

URI是核心： 无论XML中是否使用前缀，
```
ElementTree
```
登录后复制
都以其完整的URI来识别命名空间。
默认命名空间： 如果XML文档有默认命名空间（
```
xmlns="http://..."
```
登录后复制
），那么没有前缀的元素都会被归到这个命名空间下。在
```
ElementTree
```
登录后复制
内部，它们同样会被表示为
```
{URI}tag_name
```
登录后复制
。
命名空间字典： 使用
```
findall()
```
登录后复制
或
```
find()
```
登录后复制
时，传入一个命名空间字典
```
{prefix: uri}
```
登录后复制
是一个非常好的实践。这样你的查询字符串可以更接近原始XML中的标签名，可读性更好，也更容易适应命名空间前缀变化的情况。