
curl_multi 是 php 中用于并行执行多个 curl 请求的强大工具。它通过一个主句柄(multi handle)管理多个独立的 curl 句柄(individual handle),从而允许应用程序同时发起并处理多个 http 请求,显著提高数据抓取或 api 调用的效率。其基本工作流程是:初始化一个 curl_multi 句柄,添加所有待处理的 curl 句柄,然后在一个循环中反复调用 curl_multi_exec 来执行请求,并使用 curl_multi_select 来等待 i/o 活动。
在 curl_multi 的循环中,curl_multi_exec 函数负责执行请求,而 curl_multi_select 函数则用于等待套接字活动,即等待某个 cURL 句柄完成数据传输或有新的数据可读写。理想情况下,curl_multi_select 应该阻塞执行,直到有活动发生或达到指定的超时时间。然而,在某些 PHP 版本或特定环境下,curl_multi_select 可能表现为非阻塞(即立即返回),或者其超时参数(如 0.05 秒)并未被完全尊重。
当 curl_multi_select 无法有效阻塞时,即使没有 I/O 活动,循环也会频繁地空转,导致 CPU 占用率升高,并且在两次有效的请求处理之间产生不必要的延迟,从而影响整体性能。这使得开发者难以判断请求是否以最快速度完成,以及是否存在“浪费时间”的情况。
为了克服 curl_multi_select 的潜在行为问题,并确保并发请求的高效处理,推荐采用一个包含两个嵌套循环的结构。这种结构能够更精确地控制请求的执行和等待逻辑,避免空转。
<?php
/**
* 模拟创建多个 cURL 句柄
* @param array $urls 待请求的 URL 数组
* @return array cURL 句柄数组
*/
function createCurlHandles(array $urls): array
{
$handles = [];
foreach ($urls as $url) {
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
// 设置一个合理的超时,防止单个请求长时间阻塞
curl_setopt($ch, CURLOPT_TIMEOUT, 10);
$handles[] = $ch;
}
return $handles;
}
// 示例 URL 列表
$urls = [
'https://www.example.com',
'https://www.google.com',
'https://www.github.com',
'https://www.baidu.com',
'https://www.bing.com',
];
$curlHandles = createCurlHandles($urls);
// 1. 初始化 multi cURL 句柄
$mh = curl_multi_init();
// 2. 将所有 cURL 句柄添加到 multi 句柄中
foreach ($curlHandles as $ch) {
curl_multi_add_handle($mh, $ch);
}
$running = null;
$startTime = microtime(true);
// 3. 主循环:执行并管理并发请求
do {
// 执行 cURL 请求,返回正在运行的句柄数量
// curl_multi_exec 应该被反复调用,直到所有请求完成
$mrc = curl_multi_exec($mh, $running);
// 检查是否有错误发生
if ($mrc != CURLM_OK) {
// 可以根据实际情况抛出异常或记录错误
error_log("curl_multi_exec error: " . curl_multi_strerror($mrc));
break; // 退出循环
}
// 如果没有正在运行的句柄,则所有请求已完成,退出循环
if ($running == 0) {
break;
}
// 内部循环:等待 I/O 活动
// 设定一个合理的等待时间,例如 1 秒
// 0.05 秒可能太短,导致频繁空转;1 秒可以减少 CPU 占用
$selectTimeout = 1.0;
// 如果没有活动,curl_multi_select 返回 0。如果返回 -1 表示错误。
// 循环直到有活动或超时,避免忙等
while (true) {
$selectResult = curl_multi_select($mh, $selectTimeout);
if ($selectResult === 0) {
// 没有活动,且达到了 $selectTimeout,为了避免 CPU 忙等,可以稍微暂停
// 注意:如果 curl_multi_select 实际不阻塞,usleep 是必要的
usleep(10000); // 暂停 10 毫秒,减少 CPU 占用
break; // 跳出内层循环,让外层循环再次调用 curl_multi_exec
} elseif ($selectResult === -1) {
// select 错误
$multiErrno = curl_multi_errno($mh);
error_log("curl_multi_select error: " . curl_multi_strerror($multiErrno));
break 2; // 退出内外层循环
} else {
// 有活动发生($selectResult > 0),可以继续执行 curl_multi_exec
break;
}
}
} while ($running > 0); // 只要还有请求在运行,就继续循环
$endTime = microtime(true);
echo "所有请求完成,耗时: " . round($endTime - $startTime, 4) . " 秒\n";
// 4. 获取结果并清理句柄
$results = [];
foreach ($curlHandles as $ch) {
$results[curl_getinfo($ch, CURLINFO_EFFECTIVE_URL)] = curl_multi_getcontent($ch);
curl_multi_remove_handle($mh, $ch);
curl_close($ch);
}
curl_multi_close($mh);
// 打印部分结果以验证
// foreach ($results as $url => $content) {
// echo "URL: " . $url . ", Content Length: " . strlen($content) . "\n";
// }
?>外层 do...while ($running > 0) 循环:
立即学习“PHP免费学习笔记(深入)”;
内层 while (true) 循环与 curl_multi_select:
超时参数的权衡:
错误处理:
资源清理:
通过采用上述的双循环结构,开发者可以更有效地管理 PHP 中的 curl_multi 并发请求。这种方法解决了 curl_multi_select 可能存在的非阻塞问题,通过在无活动时引入短暂的 usleep 来避免 CPU 忙等,从而确保请求处理的效率和系统的稳定性。虽然 API 自身的响应速度和网络延迟是影响总耗时的主要因素,但优化 curl_multi 的循环逻辑能够最大限度地减少客户端侧的等待时间,使并发请求尽可能快地完成。在实际应用中,还需根据具体的网络环境、API 特性以及服务器资源,对超时参数和 usleep 时间进行适当的调整和测试。
以上就是PHP curl_multi 并发请求性能优化指南的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号