mysql统计500w+的日表数据的解决方案?

程序员文章站 2023-12-29 17:58:40

...

请教：
现在有每天的日表数据（一天生成一张）， 每张表数据大概在500w左右。
需要从每天的日表数据中统计：根据appid统计ip数，同时ip需要去重。 
大概的sql是：

select appid, count(distinct(ip)) from log0812_tb where iptype = 4 group by appid;

然后将统计的appid 和 ip数，放入到另一张统计表中。 

1、直接执行sql的话，肯定超时了（系统仅配置了400ms读取时间）。
2、如果将数据都取出到内存中再做操作，内存又不足了，给的内存只有50M。。。（不为难程序员的需求不是好公司）
 
请问，还有优化的解决方案吗？
谢谢

回复内容：

请教：
现在有每天的日表数据（一天生成一张）， 每张表数据大概在500w左右。
需要从每天的日表数据中统计：根据appid统计ip数，同时ip需要去重。 
大概的sql是：

select appid, count(distinct(ip)) from log0812_tb where iptype = 4 group by appid;

然后将统计的appid 和 ip数，放入到另一张统计表中。 

1、直接执行sql的话，肯定超时了（系统仅配置了400ms读取时间）。
2、如果将数据都取出到内存中再做操作，内存又不足了，给的内存只有50M。。。（不为难程序员的需求不是好公司）
 
请问，还有优化的解决方案吗？
谢谢

先说下表上可能的优化：

做一个组合索引(appid, ip)
ip存整数，不要存字符串

如果依然超时，那么尝试把数据读到内存，但你的内存只有50M，那么可以尝试用HyperLogLog，消耗的内存是极小的，但统计出来的数据会略有偏差，2%左右

最后，这种日志数据最好不要放sql，可以选择一些nosql比如hbase, mongodb都能很好的完成你这个需求

@manong
谢谢，你说的这两种优化方案都不错。

我建了 typeid、appid、ip的联合索引，这样这条语句时走索引查询，没回表，时间控制在了1.5s以下，有效果。

至于HyperLogLog算法这种，我只是大概查了下，没有去实践用，不过也谢谢推荐哈。

我用的另外的方法处理：计划任务去分批处理这500w+的数据，两次取的数据去重后，做array_diff比较出第二次不同的数据，再sum下得出总的count数。这样时间也可以控制在1s以下。这里有个技巧是将第一次比较的array转换为string后存入array中，第二次比较时再string转array，会省很多内存，因为试了下，嵌套数组的话，要比长字符串value的数组耗内存。

mysql统计500w+的日表数据的解决方案?

回复内容：

mysql统计500w+的日表数据的解决方案?

MySQL大批量数据插入，PHP之for不断插入时出现缓慢的解决方案及

sql-MySql执行分页时查询统计数据量的Sql语句差别及性能

浅谈MySQL数据库中如何解决分组统计的问题_MySQL

NaviCat连接“不支持远程连接的MySql数据库”解决方案_MySQL

MySQL数据库中的安全解决方案

MySQL数据库远程连接很慢的解决方案

mysql 海量数据的存储和访问解决方案

微信昵称带符号导致插入MySQL数据库时出错的解决方案

MySQL数据库远程连接很慢的解决方案