Python实现HTML结构化数据提取与自定义JSON转换教程-html教程-PHP中文网

Python实现HTML结构化数据提取与自定义JSON转换教程

花韻仙語

发布： 2025-11-23 12:58:02

原创

326人浏览过

Python实现HTML结构化数据提取与自定义JSON转换教程

本教程旨在解决将html文件转换为特定、结构化json格式的需求，而非简单地复制html dom结构。文章将详细指导如何利用python的beautiful soup库高效解析html内容，通过自定义逻辑提取关键文本信息，并构建扁平化或层级化的数据模型，最终将其序列化为符合期望的json格式，从而实现从复杂html中精准获取并组织结构化数据。

1. 理解HTML到JSON转换的挑战

在处理HTML数据时，我们经常面临将其转换为更易于程序处理的JSON格式的需求。然而，直接使用一些库（如html_to_json）进行转换时，往往会得到一个镜像HTML DOM结构的JSON输出。这种输出包含了大量的HTML标签信息，并非我们期望的仅包含“键”和“值”的语义化数据。

问题示例： 原始HTML文件内容（简化示意）：

<html>
<head><title>252</title></head>
<body>
    <div>
        <p><a><span><span><span>Performance Work Statement</span></span></span></a></p>
        <span><span><span><span>UNITED STATES NAVAL ACADEMY (USNA)</span></span></span></span>
    </div>
</body>
</html>

登录后复制

使用html_to_json库可能会得到类似以下结构的JSON，其中包含了HTML标签作为键，且文本内容被深层嵌套在_value字段中：

{
    "html": [
        {
            "head": [ { "title": [ { "_value": "252" } ] } ],
            "body": [
                {
                    "div": [
                        {
                            "p": [
                                { "a": [ { "span": [ { "span": [ { "span": [ { "_value": "Performance Work Statement" } ] } ] } ] } ] }
                            ]
                        },
                        {
                            "span": [ { "span": [ { "span": [ { "span": [ { "_value": "UNITED STATES NAVAL ACADEMY (USNA)" } ] } ] } ] } ]
                        }
                    ]
                }
            ]
        }
    ]
}

登录后复制

然而，我们期望的输出通常是更简洁、语义化的JSON格式，例如：

[
  { "key": "1", "value": "Performance Work Statement", "child": [] },
  {
    "key": "2",
    "value": "UNITED STATES NAVAL ACADEMY (USNA)",
    "child": [
      { "key": "2.1", "value": "子项内容A", "child": [] },
      { "key": "2.2", "value": "子项内容B", "child": [] }
    ]
  }
]

登录后复制

这种期望的格式要求我们不仅要提取文本，还要根据HTML的结构或业务逻辑，为数据生成自定义的“键”，并组织成扁平或层级化的结构。这超出了简单HTML-to-JSON转换库的能力，需要更灵活的解析和数据构建方法。

立即学习“Python免费学习笔记（深入）”；

2. 选择合适的解析工具：Beautiful Soup

为了实现从复杂HTML中提取特定数据并构建自定义JSON结构，Python的Beautiful Soup库是一个理想的选择。它是一个用于从HTML和XML文件中提取数据的库，提供了简单而强大的API来遍历、搜索和修改解析树。

Beautiful Soup的优势：

微撰

AI智能写作平台

207

查看详情

灵活性： 能够通过标签名、属性、CSS选择器等多种方式精确查找元素。
易用性： API设计直观，上手快。
健壮性： 能够处理格式不佳的HTML文档。
数据提取： 方便地提取元素的文本内容和属性值。

安装 Beautiful Soup： 如果你尚未安装Beautiful Soup，可以使用pip进行安装：

pip install beautifulsoup4

登录后复制

3. 使用Beautiful Soup解析HTML

首先，我们需要加载HTML内容并创建一个BeautifulSoup对象。

from bs4 import BeautifulSoup
import json
import os

def parse_html_to_custom_json(html_file_path):
    """
    读取HTML文件，使用Beautiful Soup解析。
    """
    if not os.path.exists(html_file_path):
        print(f"错误：文件 '{html_file_path}' 不存在。")
        return []

    with open(html_file_path, "r", encoding="utf-8") as html_file:
        html_content = html_file.read()

    # 创建BeautifulSoup对象
    # 'html.parser' 是Python内置的解析器，通常足够使用
    soup = BeautifulSoup(html_content, 'html.parser')
    return soup

登录后复制

基本元素查找与文本提取：

Beautiful Soup提供了多种方法来查找HTML元素：

soup.find('tag_name')：查找第一个匹配的标签。
soup.find_all('tag_name')：查找所有匹配的标签，返回一个列表。
soup.select('css_selector')：使用CSS选择器查找元素。

提取元素的文本内容：

element.get_text()：提取元素及其所有子元素的文本内容，并将其拼接成一个字符串。
element.string：如果元素只有一个子节点且该子节点是NavigableString（文本），则返回该文本；否则返回None。

# 示例：查找所有段落并提取文本
# soup = parse_html_to_custom_json("path/to/your/Sample.html") # 假设soup已创建
# if soup:
#     paragraphs = soup.find_all('p')
#     for p in paragraphs:
#         print(p.get_text(strip=True)) # strip=True 可以去除多余的空白字符

# 示例：查找特定类名的span
# spans = soup.find_all('span', class_='some-class-name')
# for span in spans:
#     print(span.get_text(strip=True))

登录后复制

4. 构建自定义JSON数据结构

要构建如示例中所示的层级化key/value/child结构，我们需要根据HTML的语义和层级关系来设计提取逻辑。一个常见的场景是，HTML文档中的标题（h1, h2, h3等）定义了文档的结构层级。

我们将通过一个模拟的HTML结构来演示如何提取标题和其后的内容，并构建层级JSON。

模拟HTML文件内容 Sample.html： 为了清晰演示，我们创建一个具有明确标题层级的HTML文件。

<!-- Sample.html -->
<!DOCTYPE html>
<html>
<head>
    <title>文档示例</title>
</head>
<body>
    <h1>第一部分：介绍</h1>
    <p>这是第一部分的主要内容。</p>
    <p>包含了一些背景

登录后复制

以上就是Python实现HTML结构化数据提取与自定义JSON转换教程的详细内容，更多请关注php中文网其它相关文章！

大家都在看：

解决Node.js/EJS项目中CSS文件加载失败的路径问题在Angular中实现文本加粗样式：一个基础文本编辑器的构建指南解决自定义弹窗重复显示问题：JavaScript与CSS动画的同步策略解决Node.js Express应用中CSS文件加载的路径配置问题解决CSS样式部分未生效问题：警惕注释语法陷阱