使用 lxml 解析 XML 时提取元素文本内容的正确方法-Python教程-PHP中文网

使用 lxml 解析 XML 时提取元素文本内容的正确方法

花韻仙語

发布： 2025-10-08 11:15:17

原创

440人浏览过

使用 lxml 解析 xml 时提取元素文本内容的正确方法

本文旨在帮助开发者在使用 lxml 库解析 XML 文档时，正确提取包含子元素的父元素的文本内容。通常情况下，直接访问 element.text 属性可能无法获取期望的全部文本。本文将介绍如何利用 lxml 的特性，完整提取目标文本，并提供代码示例和注意事项。

在使用 lxml 解析 XML 文档时，理解 XML 元素的文本属性至关重要。一个 XML 元素可以拥有 text 属性和 tail 属性。text 属性存储的是元素起始标签到第一个子元素（或结束标签）之间的文本内容。tail 属性存储的是元素结束标签到下一个兄弟元素起始标签之间的文本内容。当元素包含子元素时，直接访问父元素的 text 属性可能无法获取所有文本。

提取包含子元素的父元素的完整文本

如果需要提取包含子元素的父元素的完整文本，需要结合使用 text 属性和 tail 属性。以下是一种常用的方法：

from lxml import etree

xml_content = """
<root>
    <title>
        <indexmarker marker="AAA"/>
        <indexmarker marker="BBB"/>
        <indexmarker marker="CCC"/>Text Here
    </title>
</root>
"""

root = etree.fromstring(xml_content)
title = root.find(".//title")

def get_element_text(element):
    text = element.text or ""
    for child in element:
        text += get_element_text(child) + (child.tail or "")
    return text

title_text = get_element_text(title)
print(title_text)

登录后复制

这段代码定义了一个 get_element_text 函数，该函数递归地遍历元素及其子元素，并将 text 和 tail 属性拼接起来，从而获取元素的完整文本内容。

易笔AI论文

专业AI论文生成，免费生成论文大纲，在线生成选题/综述/开题报告等论文模板

103

查看详情

代码解析：

etree.fromstring(xml_content): 将 XML 字符串解析为 lxml 的 Element 对象。
root.find(".//title"): 使用 XPath 查找 title 元素。
get_element_text(element): 递归函数，用于提取元素的完整文本。
- text = element.text or "": 获取元素的 text 属性，如果为 None，则赋值为空字符串。
- for child in element:: 遍历元素的子元素。
- text += get_element_text(child) + (child.tail or ""): 递归调用 get_element_text 函数获取子元素的完整文本，并将其与子元素的 tail 属性拼接起来，添加到父元素的文本中。