
在自动化网页操作时,我们经常会遇到需要点击按钮来下载文件的情况。然而,许多这类按钮并非直接包含 href 属性指向下载链接,而是通过 JavaScript 动态生成下载请求。这意味着我们无法简单地通过检查元素的 href 属性来获取目标 URL。在这种情况下,Puppeteer 提供的网络请求拦截功能成为解决问题的关键。
Puppeteer 允许我们监听浏览器发出的所有网络请求。通过 page.waitForRequest() 方法,我们可以等待特定的请求被发出,并从中提取出我们所需的下载 URL。结合 Promise.all(),我们可以在点击按钮的同时等待预期的网络请求,确保捕获到正确的下载链接。
以下是一个使用 Puppeteer 捕获按钮触发的 CSV 文件下载链接的示例:
const puppeteer = require("puppeteer"); // 确保版本兼容,例如 ^19.7.5
(async () => {
let browser;
try {
browser = await puppeteer.launch();
const [page] = await browser.pages();
const url = "https://data.ademe.fr/datasets/liste-des-entreprises-rge-2"; // 目标网页URL
await page.goto(url, { waitUntil: "domcontentloaded" }); // 等待DOM内容加载完成
// 假设页面上有一个按钮,点击后会显示另一个“导出CSV”按钮
// 首先点击“Téléchargement des données”(下载数据)按钮,如果存在
const initialBtnSelector = '[aria-label="Téléchargement des données"]';
const initialBtn = await page.waitForSelector(initialBtnSelector);
if (initialBtn) {
await initialBtn.click();
}
// 同时等待“Export CSV”按钮被点击 和 匹配的下载请求被发出
// Promise.all 确保这两个异步操作都完成
const [downloadRequest] = await Promise.all([
// 1. 等待匹配的请求:请求URL以.csv结尾 或 包含特定API路径
page.waitForRequest(req =>
req.url().endsWith(".csv") ||
req.url().includes("data.ademe.fr/data-fair/api/v1/datasets/liste-des-entreprises-rge-2")
),
// 2. 点击“Export CSV”按钮,触发下载请求
(await page.waitForSelector('[aria-label="Export CSV"]')).click()
]);
// 打印捕获到的下载链接
console.log("捕获到的下载链接:", downloadRequest.url());
// 如果需要下载文件,可以调用一个下载函数
// 例如:await downloadFile(downloadRequest.url(), 'output.csv');
// downloadFile 函数的实现可以参考:https://stackoverflow.com/a/51302466/6243352
// 或者使用Node.js的http/https模块进行文件下载
// const fs = require('fs');
// const https = require('https');
// https.get(downloadRequest.url(), response => {
// response.pipe(fs.createWriteStream('downloaded_file.csv'));
// });
} catch (err) {
console.error("发生错误:", err);
} finally {
if (browser) {
await browser.close();
}
}
})();通过巧妙地结合 page.waitForRequest() 和 Promise.all(),Puppeteer 提供了一种强大而灵活的方式来处理那些不直接暴露下载链接的按钮。这种方法不仅限于文件下载,还可以用于捕获任何由用户交互触发的后台数据请求,极大地扩展了自动化操作的可能性。掌握这一技巧,将使您在处理复杂网页自动化任务时更加游刃有余。
以上就是使用 Puppeteer 捕获按钮触发的下载链接的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号