BeautifulSoup网页抓取指南：避免空列表的常见陷阱与最佳实践-Python教程-PHP中文网

BeautifulSoup网页抓取指南：避免空列表的常见陷阱与最佳实践

心靈之曲

发布： 2025-10-12 12:55:38

原创

846人浏览过

BeautifulSoup网页抓取指南：避免空列表的常见陷阱与最佳实践

本文旨在解决使用beautifulsoup进行网页抓取时遇到的空列表问题。我们将深入分析导致空列表的常见原因，特别是选择器不准确和代码结构不合理。教程将演示如何通过采用更精确的css选择器和优化迭代逻辑来构建健壮的抓取脚本，确保数据能够被正确提取，避免常见的抓取失败。

网页抓取中的常见挑战：空列表问题

在使用BeautifulSoup进行网页内容抓取时，开发者常常会遇到一个令人困惑的问题：尽管目标网页内容清晰可见，但抓取结果却是一个空列表。这通常意味着我们的抓取逻辑未能成功定位并提取到预期的HTML元素。空列表的出现，往往是由于选择器不准确、HTML结构理解有误或代码迭代方式存在缺陷所致。

以下是一个可能导致空列表的初始抓取尝试示例：

import requests
from bs4 import BeautifulSoup

url = 'https://inshorts.com/en/read/technology'
news_data = []
news_category = url.split('/')[-1]

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
data = requests.get(url, headers=headers)

if data.status_code == 200:
    soup = BeautifulSoup(data.content, 'html.parser')

    # 尝试查找标题和文章内容
    headlines = soup.find('div', class_=['news-card-title', 'news-right-box'])
    articles = soup.find('div', class_=['news-card-content', 'news-right-box'])

    # 检查并尝试组合数据
    if headlines and articles and len(headlines) == len(articles): # 此处会出错
        news_articles = [
            {
                'news_headline': headline.find_all('span', attrs={'itemprop': 'headline'}).string,
                'news_article': article.find_all('div', attrs={'itemprop': 'articleBody'}).string,
                'news_category': news_category
            }
            for headline, article in zip(headlines, articles)
        ]
        news_data.extend(news_articles)

print(news_data) # 输出结果为空列表

登录后复制

深入分析原始代码的问题所在

上述代码之所以会输出空列表，主要原因在于对BeautifulSoup的find()方法及其返回值的理解和使用存在偏差，以及后续逻辑的结构性问题：

find() 方法的局限性： soup.find() 方法只会返回第一个匹配的Tag对象，如果没有找到任何匹配项，则返回 None。在示例中，headlines 和 articles 变量很可能因为选择器不准确或目标元素不存在而直接被赋值为 None。
NoneType 对象的处理： 如果 headlines 或 articles 变量为 None，那么 if headlines and articles 条件就会失败，导致后续的代码块不执行。即使它们成功找到了一个 Tag 对象，len(headlines) 这样的操作也会引发 TypeError，因为 Tag 对象没有 len() 方法。
迭代逻辑的缺陷： zip(headlines, articles) 期望 headlines 和 articles 都是可迭代的序列（如列表）。但由于 find() 返回的是单个 Tag 对象或 None，而不是一个包含多个 Tag 对象的列表，这种 zip 操作是无法按预期工作的。即使 headlines 和 articles 都是单个 Tag 对象，zip 也只会迭代一次，且后续的 find_all().string 操作也可能因 None 或找不到子元素而失败。
文本提取方式： 使用 .string 属性来提取文本内容在某些情况下可能会返回 None，特别是当标签包含子标签或混合内容时。更稳健的方法是使用 get_text()。

优化策略：使用CSS选择器精准定位元素

为了解决上述问题并实现可靠的网页抓取，我们可以采用以下优化策略：

先见AI

数据为基，先见未见

查看详情

使用CSS选择器： CSS选择器提供了更强大、更灵活的方式来定位HTML元素。BeautifulSoup通过 soup.select()（返回所有匹配的元素列表）和 soup.select_one()（返回第一个匹配的元素）支持CSS选择器。
定位父级容器： 识别包含所有目标信息（如新闻标题、文章内容）的共同父级HTML元素。这样，我们只需迭代这些父级容器，并在每个容器内部提取所需的数据。这大大简化了逻辑，并提高了代码的健壮性。
统一迭代逻辑： 避免对多个独立的元素列表进行 zip 操作，而是通过迭代父级容器，在其内部直接查找子元素。
使用 get_text() 提取文本： get_text() 方法能够递归地提取一个标签内所有文本内容，并将其拼接成一个字符串，比 .string 更具鲁棒性。

下面是基于这些优化策略的改进代码示例：

import requests
from bs4 import BeautifulSoup

url = 'https://inshorts.com/en/read/technology'
news_data = []
news_category = url.split('/')[-1]

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
data = requests.get(url, headers=headers)

if data.status_code == 200:
    soup = BeautifulSoup(data.content, 'html.parser')

    # 使用CSS选择器定位所有新闻文章的父级容器
    # 这里的'[itemtype="http://schema.org/NewsArticle"]'是一个非常精确的选择器
    # 它匹配所有具有指定itemtype属性的元素，通常代表一个独立的内容块
    for article_container in soup.select('[itemtype="http://schema.org/NewsArticle"]'):
        # 在每个文章容器内部，使用select_one()定位标题和文章主体
        headline_element = article_container.select_one('[itemprop="headline"]')
        article_body_element = article_container.select_one('[itemprop="articleBody"]')

        # 检查元素是否存在，并使用get_text()提取内容
        news_headline = headline_element.get_text(strip=True) if headline_element else "N/A"
        news_article = article_body_element.get_text(strip=True) if article_body_element else "N/A"

        news_data.append(
            {
                'news_headline': news_headline,
                'news_article': news_article,
                'news_category': news_category
            }
        )

print(news_data) # 将输出包含数据的列表

登录后复制

关键改进点与最佳实践

选择器精度至关重要： 示例中使用了 [itemtype="http://schema.org/NewsArticle"] 这样的属性选择器，它通常比简单的类名或标签名更具唯一性和稳定性。在实际抓取中，务必花时间检查目标网站的HTML结构，找到最能代表目标内容的独特标识符（如 id、独特的 class 组合、自定义属性等）。
迭代逻辑的鲁棒性： 通过首先定位包含单个完整数据记录的父级元素（如 article_container），然后遍历这些父级元素，并在每个父级元素内部查找其子元素，可以极大地增强代码的鲁棒性。这种“先大后小”的策略避免了多个独立列表之间长度不匹配或元素顺序错乱的问题。
select() 与 select_one() 的选择：
- soup.select('CSS选择器')：返回所有匹配的元素列表，适用于需要获取多个相同类型元素的情况。
- element.select_one('CSS选择器')：返回第一个匹配的元素，如果没有找到则返回 None。适用于在已知父元素内查找唯一的子元素。
get_text() 的应用： 始终优先使用 get_text(strip=True) 来提取文本内容。strip=True 参数可以自动去除文本两端的空白字符，使得提取的数据更干净。相比之下，.string 属性在标签内包含其他标签时会返回 None，不够灵活。
空值处理： 在提取 headline_element 和 article_body_element 后，增加了 if headline_element else "N/A" 这样的判断，这是良好的编程习惯。即使选择器通常很准确，也应考虑到某些元素可能偶尔缺失的情况，避免程序因 NoneType 错误而崩溃。
User-Agent 设置： 在 headers 中设置 User-Agent 是一个良好的实践，可以模拟浏览器请求，减少被网站识别为爬虫的风险，从而避免被阻止访问。

总结

当使用BeautifulSoup进行网页抓取时遇到空列表，通常是由于HTML元素选择器不够精确或数据迭代逻辑存在缺陷。通过深入理解目标网页的HTML结构，并利用强大的CSS选择器（如属性选择器）来精准定位包含完整数据记录的父级容器，然后在其内部安全地提取子元素，可以构建出高效且健壮的网页抓取脚本。同时，采用 get_text() 进行文本提取和适当的空值处理，将进一步提升代码的可靠性，确保数据能够被成功抓取。

以上就是BeautifulSoup网页抓取指南：避免空列表的常见陷阱与最佳实践的详细内容，更多请关注php中文网其它相关文章！