水塘抽样算法能从未知长度数据流中等概率抽取k个样本。初始化大小为k的数组存储前k个元素,第i个后续元素以k/i概率入池并随机替换旧元素,确保最终每个元素被选概率均为k/N。

水塘抽样(Reservoir Sampling)是一种用于从大量或未知长度的数据流中随机抽取样本的算法。特别适合处理无法一次性加载进内存的大数据流场景。C++实现时,核心是使用一个固定大小的“水塘”数组,并在遍历过程中动态维护样本的均匀性。
假设要从数据流中随机选取 k 个元素,且每个元素被选中的概率相等。算法的关键在于:当读取到第 n 个元素时(n ≥ k),以 k/n 的概率决定是否将其放入水塘。若放入,则随机替换水塘中的一个已有元素。
这样能确保在整个流程结束后,每个元素出现在最终样本中的概率都是 k/N(N为总数量)。
遍历时,对第 i 个元素,以 1/i 的概率保留它作为当前结果。
立即学习“C++免费学习笔记(深入)”;
#include <cstdlib>
#include <ctime>
int reservoirSamplingSingle() {
int reservoir = 0;
int i = 1;
int num;
srand(time(nullptr));
while (std::cin >> num) { // 假设输入是数据流
if (rand() % i == 0) {
reservoir = num;
}
++i;
}
return reservoir;
}
前 k 个元素直接存入水塘;从第 k+1 个元素开始,对第 i 个元素,生成 [0, i) 范围内的随机数 j,如果 j
#include <vector>
#include <iostream>
#include <cstdlib>
#include <ctime>
std::vector<int> reservoirSamplingMultiple(int k) {
std::vector<int> reservoir(k);
int num;
int i = 0;
srand(time(nullptr));
// 前 k 个元素直接填入
while (i < k && std::cin >> num) {
reservoir[i++] = num;
}
// 处理后续元素
int count = k;
while (std::cin >> num) {
++count;
int j = rand() % count;
if (j < k) {
reservoir[j] = num;
}
}
return reservoir;
}
实际应用中注意以下几点:
以上就是C++怎么实现一个水塘抽样算法_C++大数据流随机抽样问题的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号