
本教程旨在解决使用beautifulsoup爬取网页时,因内容动态加载而无法获取目标数据的问题。当页面元素通过javascript的xhr请求异步加载时,直接解析初始html将失败。文章将详细阐述如何通过浏览器开发者工具识别这些xhr请求,并利用python的`requests`库直接调用api接口,从而成功获取并处理动态生成的数据。
在进行网页数据抓取时,开发者常会遇到一个常见问题:尽管在浏览器中能看到完整的页面内容,但使用BeautifulSoup等解析工具获取到的HTML却缺少部分目标数据。这通常是由于网站采用了动态加载技术,即页面内容并非一次性从服务器加载,而是通过JavaScript在页面加载完成后,通过XMLHttpRequest (XHR) 或 Fetch API 异步请求数据并更新DOM。
当您尝试从https://www.parliament.lk/en/members-of-parliament/directory-of-members/?cletter=A这样的页面抓取zuojiankuohaophpcnul>标签下的<li>内容,但soup.find('ul', id='demoFour')返回空标签时,这正是动态加载的典型表现。页面上的成员列表很可能是在初始HTML加载完毕后,通过JavaScript向后端发送了一个API请求,然后将返回的数据渲染到id="demoFour"的<ul>中。
要解决这个问题,关键在于识别并模拟这些幕后的XHR请求。您可以使用浏览器的开发者工具(通常按F12打开)来检查这些请求:
通过分析,我们可以发现,该网站的成员列表数据实际上是通过向https://www.parliament.lk/members-of-parliament/directory-of-members/index2.php发送一个POST请求获取的,该请求的参数包括了字母筛选(letter)等信息,并返回JSON格式的数据。
一旦确定了数据源的API接口,我们就可以绕过前端渲染过程,直接使用Python的requests库向该接口发送请求,获取原始数据。
以下是实现这一策略的Python代码示例:
from bs4 import BeautifulSoup
import requests
import string
import json # 导入json库用于处理JSON响应
# 存储抓取到的数据
data = []
# 遍历所有大写字母,模拟页面按字母筛选的功能
for letter in list(string.ascii_uppercase):
# 构建API请求URL和POST请求体
api_url = 'https://www.parliament.lk/members-of-parliament/directory-of-members/index2.php'
# 注意:这里是一个POST请求,需要传递form data
payload = {
'option': 'com_members',
'task': 'all',
'tmpl': 'component',
'letter': letter,
'wordfilter': '',
'search_district': ''
}
try:
# 发送POST请求获取数据
# 实际的请求是POST,并且参数在请求体中
result = requests.post(api_url, data=payload)
result.raise_for_status() # 检查HTTP请求是否成功 (状态码200)
# 解析JSON响应
members_json = result.json()
# 遍历返回的成员列表
for member_info in members_json:
# 提取所需信息并添加到数据列表中
data.append({
'url': f"https://www.parliament.lk/en/members-of-parliament/directory-of-members/viewMember/{member_info['mem_intranet_id']}",
'id': member_info['mem_intranet_id'],
'name': member_info['member_sname_eng']
})
except requests.exceptions.RequestException as e:
print(f"请求字母 '{letter}' 时发生错误: {e}")
except json.JSONDecodeError as e:
print(f"解析字母 '{letter}' 的响应时发生JSON错误: {e}")
# 打印抓取到的数据
print(data)代码解析:
执行上述代码后,data列表将包含一个结构化的字典列表,每个字典代表一个议会成员,包含其URL、ID和姓名,例如:
[{'url': 'https://www.parliament.lk/en/members-of-parliament/directory-of-members/viewMember/3266',
'id': '3266',
'name': 'A. Aravindh Kumar'},
{'url': 'https://www.parliament.lk/en/members-of-parliament/directory-of-members/viewMember/50',
'id': '50',
'name': 'Abdul Haleem'},
{'url': 'https://www.parliament.lk/en/members-of-parliament/directory-of-members/viewMember/3325',
'id': '3325',
'name': 'Ajith Rajapakse'},
...]当传统的BeautifulSoup解析方法无法获取到网页上的内容时,很可能是因为内容通过JavaScript动态加载。解决之道在于利用浏览器开发者工具分析网络请求,找到数据源的API接口,并直接使用requests库模拟这些XHR请求来获取原始数据。这种方法更直接、高效,并且能获取到结构化的JSON数据,极大地简化了数据处理过程。掌握这一技巧,将使您在面对现代动态网页时,能够更有效地进行数据抓取。
以上就是解决动态加载内容爬取问题:利用XHR请求获取隐藏数据的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号