
在现代网页应用中,许多动态数据并非直接呈现在HTML元素中,而是以JSON(JavaScript Object Notation)格式嵌入在页面的<script>标签内。对于需要抓取这类数据的场景,传统的Selenium元素定位方法(如By.ID, By.CLASS_NAME, By.XPATH直接定位到可见元素)往往无效。本教程将指导您如何利用Selenium结合Python的json模块,有效地从HTML源码中提取并解析这些嵌入式JSON数据。
当您在浏览器中查看网页源码(通常通过“查看页面源代码”或Ctrl+U)时,可能会发现一些<script>标签中包含了大量键值对结构的数据,这通常就是嵌入式JSON。例如,在音乐数据库页面中,曲目详情(如ISRC码、艺术家信息等)可能被打包成一个JSON对象,供前端JavaScript使用。这种数据格式的特点是:
提取嵌入式JSON数据的通用步骤如下:
我们将以从一个音乐数据库页面提取特定曲目的ISRC码为例,演示上述步骤。假设目标ISRC码位于页面的某个<script>标签内,其结构类似"isrc":"GB-FFM-19-0853"。
Easily find JSON paths within JSON objects using our intuitive Json Path Finder
30
立即学习“Python免费学习笔记(深入)”;
首先,确保您已安装Python和Selenium库,并配置好ChromeDriver或其他浏览器驱动。
# 安装Selenium # pip install selenium # 导入必要的库 from selenium import webdriver from selenium.webdriver.common.by import By import json import time # 引入time模块用于简单的等待
from selenium import webdriver
from selenium.webdriver.common.by import By
import json
import time
# 初始化WebDriver
# 请确保您的ChromeDriver路径正确配置,或者将chromedriver.exe放在系统PATH中
# driver = webdriver.Chrome(executable_path="C:/path/to/chromedriver.exe")
driver = webdriver.Chrome() # 如果chromedriver在PATH中,可直接这样初始化
# 导航到目标URL
target_url = "https://www.audionetwork.com/browse/m/track/purple-beat_1008534"
driver.get(target_url)
# 增加一个简单的等待,确保页面内容加载完毕
# 在实际项目中,建议使用更健壮的显式等待(WebDriverWait)
time.sleep(3)
try:
# 1. 定位包含JSON数据的<script>标签
# 检查页面源码,确定哪个<script>标签包含了目标JSON。
# 在本例中,通过XPath '/html/body/script[1]' 定位到body下的第一个script标签。
# 注意:这个XPath是高度依赖特定页面结构的,实际应用中可能需要调整。
script_element = driver.find_element(By.XPATH, "/html/body/script[1]")
# 2. 提取<script>标签的内部HTML内容,即JSON字符串
json_string = script_element.get_attribute('innerHTML')
# 3. 将JSON字符串解析为Python字典
content_as_dict = json.loads(json_string)
# 4. 访问目标数据 (ISRC码)
# 根据JSON的结构,层层深入获取'isrc'值。
# 这里的键路径 'props' -> 'pageProps' -> 'track' -> 'isrc' 也是特定于该网站的。
isrc_value = content_as_dict['props']['pageProps']['track']['isrc']
print(f"成功提取的ISRC码为: {isrc_value}")
except Exception as e:
print(f"提取ISRC码时发生错误: {e}")
# 可以在这里打印json_string或content_as_dict来帮助调试
# print(f"原始JSON字符串:\n{json_string}")
# print(f"解析后的字典:\n{content_as_dict}")
finally:
# 关闭浏览器
driver.quit()
通过本教程,您应该已经掌握了如何使用Python和Selenium从HTML页面中提取并解析嵌入式JSON数据的通用方法。这种技术对于抓取那些不直接显示在DOM中的复杂数据至关重要。记住,关键在于准确地定位包含JSON的<script>标签,并理解其内部JSON数据的结构,以便正确地进行解析和访问。
以上就是利用Python和Selenium从HTML页面高效提取嵌入式JSON数据的详细内容,更多请关注php中文网其它相关文章!
HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号