php与shell大文件数据统计与排序方法

php中文网

发布： 2016-07-25 09:12:56

原创

1229人浏览过

本节内容： shell与php排序大数据的方法

大数据的问题，比如有个4G的文件，如何用只有1G内存的机器去计算文件中出现次数做多的数字(假设1行是1个数组，例如QQ号码)。如果这个文件只有4B或者几十兆，那么最简单的办法就是直接读取这个文件后进行分析统计。但是这个是4G的文件，当然也可能是几十G甚至几百G的文件，这就不是直接读取能解决了的。

同样对于如此大的文件，单纯用php做是肯定行不通的，我的思路是不管多大文件，首先要切割为多个应用可以承受的小文件，然后批量或者依次分析统计小文件后再把总的结果汇总后统计出符合要求的最终结果。类似于比较流行的mapreduce模型，其核心思想就是“map（映射）”和“reduce（化简）”，加上分布式的文件处理，当然我能理解和使用到的只有reduce后去处理。

假设有1个10亿行的文件，每行一个6位-10位不等的QQ号码，那么我需要解决的就是计算在这10亿个QQ号码中，重复最多的前10个号码，使用下面的PHP脚本生成这个文件，很可能这个随机数中不会出现重复，但是假设这里面会有重复的数字出现。

启科网络PHP商城系统

启科网络商城系统由启科网络技术开发团队完全自主开发，使用国内最流行高效的PHP程序语言，并用小巧的MySql作为数据库服务器，并且使用Smarty引擎来分离网站程序与前端设计代码，让建立的网站可以自由制作个性化的页面。系统使用标签作为数据调用格式，网站前台开发人员只要简单学习系统标签功能和使用方法，将标签设置在制作的HTML模板中进行对网站数据、内容、信息等的调用，即可建设出美观、个性的网站。

查看详情

例如，

$fp = fopen('qq.txt','w+');
for( $i=0; $i $str = mt_rand(10000,9999999999)." ";
fwrite($fp,$str);
}
fclose($fp);

复制代码

生成文件的世界比较长，Linux下直接使用php-client运行PHP文件会比较节省时间，当然也可以使用其他方式生成文件。生成的文件大约11G。然后使用Linux Split切割文件，切割标准为每100万行数据1个文件。 split -l 1000000 -a 3 qq.txt qqfile qq.txt被分割为名字是qqfileaaa到qqfilebml的1000个文件，每个文件11mb大小，这时再使用任何处理方法都会比较简单了。

用PHP进行分析统计：