欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

BDA数据读取过程时间记录2018-04-22

程序员文章站 2022-07-12 23:49:09
...

没找到pandas直接给重复数据排序,自己写了个库:

hash函数: 将原始数据HASH,基本是HASH成9位十进制
原数据在14-18位数之间,发生碰撞的概率很低。
sort函数:给不同的数据标注ID,递增。(这应该不是个好的处理方式待改进)
前提: 假设若有数据不同,只在相邻不同。,所以不适用一般情况
https://github.com/tangkaisky/DataMining/tree/master/IS6400BDA
(待完善:分块读取处理)
hash处理1w*27(实际处理7列):74秒

hash start
0.0944162694555
one+25% 2.67954554452
...
...
one+25% 71.079399709
hash done
74.1000116805

sort处理1w*27(实际处理7列)

sort start
0.651374954121
one+25% 3.27572733257
one+25% 5.80004310553
...
...
one+25% 73.1348870874
sort finish
73.4082792926

sort处理4.7w*27(实际处理7列)

preproc 47000
sort start
0.118014838665
one+25% 32.635356019
one+25% 63.6570617567
...
...
one+25% 885.678654599
sort finish
887.011638494

8w

preproc 80000
sort start
1.46617461846e-06
one+25% 106.000368499
one+25% 211.681905597

转载于:https://www.jianshu.com/p/db0846f894d1