解决动态加载内容爬取问题：利用XHR请求获取隐藏数据-html教程-PHP中文网

解决动态加载内容爬取问题：利用XHR请求获取隐藏数据

聖光之護

发布： 2025-11-25 12:00:32

原创

244人浏览过

解决动态加载内容爬取问题：利用XHR请求获取隐藏数据

本教程旨在解决使用beautifulsoup爬取网页时，因内容动态加载而无法获取目标数据的问题。当页面元素通过javascript的xhr请求异步加载时，直接解析初始html将失败。文章将详细阐述如何通过浏览器开发者工具识别这些xhr请求，并利用python的`requests`库直接调用api接口，从而成功获取并处理动态生成的数据。

在进行网页数据抓取时，开发者常会遇到一个常见问题：尽管在浏览器中能看到完整的页面内容，但使用BeautifulSoup等解析工具获取到的HTML却缺少部分目标数据。这通常是由于网站采用了动态加载技术，即页面内容并非一次性从服务器加载，而是通过JavaScript在页面加载完成后，通过XMLHttpRequest (XHR) 或 Fetch API 异步请求数据并更新DOM。

理解动态加载与XHR请求

当您尝试从https://www.parliament.lk/en/members-of-parliament/directory-of-members/?cletter=A这样的页面抓取zuojiankuohaophpcnul>标签下的<li>内容，但soup.find('ul', id='demoFour')返回空标签时，这正是动态加载的典型表现。页面上的成员列表很可能是在初始HTML加载完毕后，通过JavaScript向后端发送了一个API请求，然后将返回的数据渲染到id="demoFour"的<ul>中。

要解决这个问题，关键在于识别并模拟这些幕后的XHR请求。您可以使用浏览器的开发者工具（通常按F12打开）来检查这些请求：

打开目标网页。
打开开发者工具，切换到“网络 (Network)”标签页。
刷新页面，或者在页面上进行任何可能触发数据加载的操作（例如点击分页、筛选等）。
在“网络”标签页中，筛选“XHR”或“Fetch/XHR”类型，观察是否有请求返回了您想要的数据。通常这些请求的URL会包含api、data或与页面内容相关的关键词，并且响应类型多为JSON。

通过分析，我们可以发现，该网站的成员列表数据实际上是通过向https://www.parliament.lk/members-of-parliament/directory-of-members/index2.php发送一个POST请求获取的，该请求的参数包括了字母筛选（letter）等信息，并返回JSON格式的数据。

解决方案：直接调用API接口

一旦确定了数据源的API接口，我们就可以绕过前端渲染过程，直接使用Python的requests库向该接口发送请求，获取原始数据。

AVCLabs

AI移除视频背景，100%自动和免费

268

查看详情

以下是实现这一策略的Python代码示例：

from bs4 import BeautifulSoup
import requests
import string
import json # 导入json库用于处理JSON响应

# 存储抓取到的数据
data = []

# 遍历所有大写字母，模拟页面按字母筛选的功能
for letter in list(string.ascii_uppercase):
    # 构建API请求URL和POST请求体
    api_url = 'https://www.parliament.lk/members-of-parliament/directory-of-members/index2.php'
    # 注意：这里是一个POST请求，需要传递form data
    payload = {
        'option': 'com_members',
        'task': 'all',
        'tmpl': 'component',
        'letter': letter,
        'wordfilter': '',
        'search_district': ''
    }

    try:
        # 发送POST请求获取数据
        # 实际的请求是POST，并且参数在请求体中
        result = requests.post(api_url, data=payload)
        result.raise_for_status() # 检查HTTP请求是否成功 (状态码200)

        # 解析JSON响应
        members_json = result.json()

        # 遍历返回的成员列表
        for member_info in members_json:
            # 提取所需信息并添加到数据列表中
            data.append({
                'url': f"https://www.parliament.lk/en/members-of-parliament/directory-of-members/viewMember/{member_info['mem_intranet_id']}",
                'id': member_info['mem_intranet_id'],
                'name': member_info['member_sname_eng']
            })
    except requests.exceptions.RequestException as e:
        print(f"请求字母 '{letter}' 时发生错误: {e}")
    except json.JSONDecodeError as e:
        print(f"解析字母 '{letter}' 的响应时发生JSON错误: {e}")

# 打印抓取到的数据
print(data)

登录后复制

代码解析：

导入必要的库：requests用于发送HTTP请求，string用于生成字母列表，json用于解析API返回的JSON数据。
遍历字母表：网站的成员目录是按字母分类的，因此我们通过遍历string.ascii_uppercase来模拟按字母筛选的操作，确保获取所有成员的信息。
构建API请求：
- api_url是实际提供成员数据的后端接口地址。
- payload是一个字典，包含了POST请求所需的表单数据（form data），这些参数是从开发者工具中分析XHR请求的“负载 (Payload)”或“表单数据 (Form Data)”部分获取的。
发送POST请求：使用requests.post()方法发送POST请求，并将payload作为data参数传递。
错误处理：result.raise_for_status()用于在HTTP请求返回错误状态码时抛出异常。try-except块用于捕获网络请求和JSON解析可能发生的错误，提高程序的健壮性。
解析JSON响应：result.json()方法将HTTP响应体解析为Python字典或列表。
提取并存储数据：遍历解析后的JSON数据，提取每个成员的ID、英文名等信息，并构建一个包含成员详情URL的字典，最后将其添加到data列表中。

抓取结果示例

执行上述代码后，data列表将包含一个结构化的字典列表，每个字典代表一个议会成员，包含其URL、ID和姓名，例如：

[{'url': 'https://www.parliament.lk/en/members-of-parliament/directory-of-members/viewMember/3266',
  'id': '3266',
  'name': 'A. Aravindh Kumar'},
 {'url': 'https://www.parliament.lk/en/members-of-parliament/directory-of-members/viewMember/50',
  'id': '50',
  'name': 'Abdul Haleem'},
 {'url': 'https://www.parliament.lk/en/members-of-parliament/directory-of-members/viewMember/3325',
  'id': '3325',
  'name': 'Ajith Rajapakse'},
 ...]

登录后复制

注意事项与进阶

User-Agent和Headers：某些网站可能会检查请求头中的User-Agent。如果直接请求API被拒绝，尝试在requests.post()中添加headers参数，模拟浏览器行为。
频率限制与IP封锁：频繁的请求可能会触发网站的频率限制或IP封锁。考虑添加time.sleep()在请求之间设置延迟，或使用代理IP池。
动态参数：本例中的letter参数是显而易见的。在更复杂的场景中，API请求的参数可能包含动态生成的令牌（token）、时间戳或其他加密信息。这需要更深入的分析JavaScript代码来理解其生成逻辑。
详细页面抓取：本教程只获取了成员的基本信息。如果需要每个成员的详细资料，您可以使用抓取到的url字段，进一步对每个成员的详情页发送requests.get()请求，并使用BeautifulSoup解析这些详情页。

总结

当传统的BeautifulSoup解析方法无法获取到网页上的内容时，很可能是因为内容通过JavaScript动态加载。解决之道在于利用浏览器开发者工具分析网络请求，找到数据源的API接口，并直接使用requests库模拟这些XHR请求来获取原始数据。这种方法更直接、高效，并且能获取到结构化的JSON数据，极大地简化了数据处理过程。掌握这一技巧，将使您在面对现代动态网页时，能够更有效地进行数据抓取。

以上就是解决动态加载内容爬取问题：利用XHR请求获取隐藏数据的详细内容，更多请关注php中文网其它相关文章！

大家都在看：

HTML多选下拉框强制选择至少N个选项的实现指南掌握PHP表单提交：理解GET与POST及isset()的正确使用 PHP与AJAX实现无刷新待办事项删除教程避免表单提交后页面刷新并保留数据与显示错误：AJAX与PHP实践解决PHP表单提交与数据库插入失败：提交按钮name属性的关键作用