如何用Python从HTML中提取由div和span标签分割的表格数据？-html教程-PHP中文网

如何用Python从HTML中提取由div和span标签分割的表格数据？

DDD

发布： 2025-02-22 09:36:53

原创

894人浏览过

如何用Python从HTML中提取由div和span标签分割的表格数据？

利用python从html中提取被div和span标签分割的表格数据

本教程演示如何使用Python和Beautiful Soup库从结构复杂的HTML代码中提取表格数据，这些数据分散在不同的div和span标签中。

安装Beautiful Soup库

首先，确保已安装Beautiful Soup库：

<code class="bash">pip install beautifulsoup4</code>

登录后复制

代码实现

立即学习“Python免费学习笔记（深入）”；

慧中标AI标书

慧中标AI标书是一款AI智能辅助写标书工具。

120

查看详情

以下代码片段展示了整个数据提取过程：

<code class="python">from bs4 import BeautifulSoup

html_doc = """
<div class="all hs_list" id="articlelistnew">
  <div class="dheader">
    阅读评论
    标题
    作者
    最后更新
  </div>
  <div class="articleh normal_post">
    471
    2
    ...
    ...
    09-12 00:09
  </div>
  <div class="articleh normal_post">
    603
    3
    ...
    ...
    09-11 16:01
  </div>
</div>"""

soup = BeautifulSoup(html_doc, 'html.parser')

#  由于示例HTML中缺少span标签，以下代码做了修改，直接从div中提取数据
table_rows = soup.find_all('div', class_='articleh')

# 假设表格有5列数据
num_cols = 5
table_data = []
for row in table_rows:
    row_data = row.text.split()  # 使用空格分割数据
    if len(row_data) >= num_cols:  # 确保数据足够
      table_data.append(row_data[:num_cols]) # 只取前5列数据

print(table_data)</code>

登录后复制

代码说明:

导入Beautiful Soup: from bs4 import BeautifulSoup 导入必要的库。
HTML文档: html_doc 变量包含了目标HTML代码。 请注意: 原始示例HTML中缺少span标签，这使得直接使用span标签进行提取变得不可能。此代码已修改为从div标签中提取数据，并假设数据由空格分隔。
解析HTML: soup = BeautifulSoup(html_doc, 'html.parser') 使用html.parser 解析HTML。
查找行: table_rows = soup.find_all('div', class_='articleh') 找到所有包含表格数据的div元素。
提取数据: 代码迭代每个table_rows，使用text.split()方法根据空格将文本内容分割成列表。然后，只取前5个元素，以确保每行数据都包含5列。
打印结果: print(table_data) 打印最终的表格数据，这是一个二维列表。

改进建议:

为了使代码更健壮，建议根据实际HTML结构调整数据提取逻辑。如果HTML结构包含span标签，则需要修改代码以使用find_all('span', class_='...')来定位特定的span标签，并提取其文本内容。此外，可以添加错误处理机制，例如检查数据长度是否符合预期，以避免因HTML结构变化导致的错误。如果数据并非空格分隔，则需要根据实际分隔符修改split()方法的参数。

以上就是如何用Python从HTML中提取由div和span标签分割的表格数据？的详细内容，更多请关注php中文网其它相关文章！