BDA数据读取过程时间记录2018-04-22
程序员文章站
2022-07-12 23:49:09
...
没找到pandas直接给重复数据排序,自己写了个库:
hash函数: 将原始数据HASH,基本是HASH成9位十进制
原数据在14-18位数之间,发生碰撞的概率很低。
sort函数:给不同的数据标注ID,递增。(这应该不是个好的处理方式待改进)
前提: 假设若有数据不同,只在相邻不同。,所以不适用一般情况
https://github.com/tangkaisky/DataMining/tree/master/IS6400BDA
(待完善:分块读取处理)
hash处理1w*27(实际处理7列):74秒
hash start
0.0944162694555
one+25% 2.67954554452
...
...
one+25% 71.079399709
hash done
74.1000116805
sort处理1w*27(实际处理7列)
sort start
0.651374954121
one+25% 3.27572733257
one+25% 5.80004310553
...
...
one+25% 73.1348870874
sort finish
73.4082792926
sort处理4.7w*27(实际处理7列)
preproc 47000
sort start
0.118014838665
one+25% 32.635356019
one+25% 63.6570617567
...
...
one+25% 885.678654599
sort finish
887.011638494
8w
preproc 80000
sort start
1.46617461846e-06
one+25% 106.000368499
one+25% 211.681905597
转载于:https://www.jianshu.com/p/db0846f894d1