mysql统计500w+的日表数据的解决方案?-php教程-PHP中文网

mysql统计500w+的日表数据的解决方案?

php中文网

发布： 2016-08-18 09:15:56

原创

1668人浏览过

<code>请教：
现在有每天的日表数据（一天生成一张）， 每张表数据大概在500w左右。
需要从每天的日表数据中统计：根据appid统计ip数，同时ip需要去重。 
大概的sql是：</code>

登录后复制

select appid, count(distinct(ip)) from log0812_tb where iptype = 4 group by appid;

<code>然后将统计的appid 和 ip数，放入到另一张统计表中。 

1、直接执行sql的话，肯定超时了（系统仅配置了400ms读取时间）。
2、如果将数据都取出到内存中再做操作，内存又不足了，给的内存只有50M。。。（不为难程序员的需求不是好公司）
 
请问，还有优化的解决方案吗？
谢谢 </code>

登录后复制

回复内容：

<code>请教：
现在有每天的日表数据（一天生成一张）， 每张表数据大概在500w左右。
需要从每天的日表数据中统计：根据appid统计ip数，同时ip需要去重。 
大概的sql是：</code>

登录后复制

select appid, count(distinct(ip)) from log0812_tb where iptype = 4 group by appid;

<code>然后将统计的appid 和 ip数，放入到另一张统计表中。 

1、直接执行sql的话，肯定超时了（系统仅配置了400ms读取时间）。
2、如果将数据都取出到内存中再做操作，内存又不足了，给的内存只有50M。。。（不为难程序员的需求不是好公司）
 
请问，还有优化的解决方案吗？
谢谢 </code>

登录后复制

先说下表上可能的优化：

做一个组合索引(appid, ip)
ip存整数，不要存字符串

如果依然超时，那么尝试把数据读到内存，但你的内存只有50M，那么可以尝试用HyperLogLog，消耗的内存是极小的，但统计出来的数据会略有偏差，2%左右

最后，这种日志数据最好不要放sql，可以选择一些nosql比如hbase, mongodb都能很好的完成你这个需求

SONIFY.io

设计和开发音频优先的产品和数据驱动的解决方案

查看详情

@manong
谢谢，你说的这两种优化方案都不错。

我建了 typeid、appid、ip的联合索引，这样这条语句时走索引查询，没回表，时间控制在了1.5s以下，有效果。

至于HyperLogLog算法这种，我只是大概查了下，没有去实践用，不过也谢谢推荐哈。

我用的另外的方法处理：计划任务去分批处理这500w+的数据，两次取的数据去重后，做array_diff比较出第二次不同的数据，再sum下得出总的count数。这样时间也可以控制在1s以下。这里有个技巧是将第一次比较的array转换为string后存入array中，第二次比较时再string转array，会省很多内存，因为试了下，嵌套数组的话，要比长字符串value的数组耗内存。

大家都在看：

如何在Debian上集成PHP与Memcached的详细教程？如何下载php用户认证文件_获取php用户登录注册文件的方法如何设置php网站404页面_404错误页面配置与用户体验优化方法 PHP地址怎么缓存_PHP地址缓存的实现与性能优化技巧 php怎么调试接口安全测试_php接口安全漏洞扫描与防护调试方法