使用 Python 解析 HTML 并提取特定部分-Python教程-PHP中文网

使用 Python 解析 HTML 并提取特定部分

花韻仙語

发布： 2025-08-06 18:42:20

原创

945人浏览过

使用 python 解析 html 并提取特定部分

本文介绍了如何使用 Python 和 BeautifulSoup 库从 HTML 文档中提取位于两个特定锚点标签之间的内容。通过定位起始和结束锚点，并遍历文档的标签，可以有效地提取所需的数据，并提供了一个完整的代码示例。

从 HTML 文档中提取特定部分是常见的任务，尤其是在数据抓取和网络爬虫应用中。本文将介绍如何使用 Python 的 BeautifulSoup 库来实现这一目标。具体来说，我们将演示如何提取位于两个特定锚点标签之间的所有内容。

首先，确保安装了 BeautifulSoup 库。可以使用 pip 进行安装：

pip install beautifulsoup4

登录后复制

接下来，我们将使用以下步骤来提取所需的内容：

立即学习“Python免费学习笔记（深入）”；

加载 HTML 文档： 使用 BeautifulSoup 解析 HTML 文本。
定位起始标签： 找到包含起始文本（例如 "Notes to Unaudited Condensed Consolidated Financial Statements"）的锚点标签。
定位结束标签： 找到包含结束文本（例如 "Item 2."）的锚点标签。
提取中间内容： 遍历 HTML 文档的标签，提取位于起始和结束标签之间的所有标签。

以下是完整的 Python 代码示例：

秘塔写作猫

秘塔写作猫是一个集AI写作、校对、润色、配图等为一体的创作平台

127

查看详情

from bs4 import BeautifulSoup

html_text = """\
<div>
    Something other ...
</div>
<div>
    <a href="#"><span>Notes to Unaudited Condensed Consolidated Financial Statements</span></a>
</div>
<div>I want this...</div>
<div>I want this too...</div>
<div>
    <a href="#"><span>Item 2.</span></a>
</div>
<div>I DON'T want this...</div>"""

soup = BeautifulSoup(html_text, "html.parser")

tag_start = soup.find(
    lambda tag: "Notes to Unaudited Condensed Consolidated Financial Statements"
    in tag.text,
    recursive=False,
)

tag_end = soup.find(
    lambda tag: "Item 2." in tag.text,
    recursive=False,
)

tags_in_between, state = [], False
for tag in soup.find_all(recursive=False):
    if tag is tag_start:
        state = True
    elif tag is tag_end:
        state = False
    elif state:
        tags_in_between.append(tag)

print(tags_in_between)

登录后复制

代码解释：

BeautifulSoup(html_text, "html.parser"): 使用 HTML 解析器创建一个 BeautifulSoup 对象。
soup.find(...): 使用 find 方法查找包含特定文本的标签。这里使用 lambda 函数作为过滤条件，以便更灵活地匹配标签。recursive=False 确保只在顶层子元素中查找。
soup.find_all(recursive=False): 查找所有顶层子元素。
state: 使用 state 变量来跟踪当前是否位于起始和结束标签之间。
tags_in_between.append(tag): 将位于起始和结束标签之间的标签添加到列表中。

注意事项：