BDA数据读取过程时间记录2018-04-22

程序员文章站 2022-07-12 23:49:09

...

没找到pandas直接给重复数据排序，自己写了个库：

hash函数：将原始数据HASH，基本是HASH成9位十进制
原数据在14-18位数之间，发生碰撞的概率很低。
sort函数：给不同的数据标注ID，递增。（这应该不是个好的处理方式待改进）
前提：假设若有数据不同，只在相邻不同。，所以不适用一般情况
https://github.com/tangkaisky/DataMining/tree/master/IS6400BDA
（待完善：分块读取处理）
hash处理1w*27（实际处理7列）:74秒

hash start
0.0944162694555
one+25% 2.67954554452
...
...
one+25% 71.079399709
hash done
74.1000116805

sort处理1w*27（实际处理7列）

sort start
0.651374954121
one+25% 3.27572733257
one+25% 5.80004310553
...
...
one+25% 73.1348870874
sort finish
73.4082792926

sort处理4.7w*27（实际处理7列）

preproc 47000
sort start
0.118014838665
one+25% 32.635356019
one+25% 63.6570617567
...
...
one+25% 885.678654599
sort finish
887.011638494

preproc 80000
sort start
1.46617461846e-06
one+25% 106.000368499
one+25% 211.681905597

转载于:https://www.jianshu.com/p/db0846f894d1

上一篇： python landsatxplore下载Landsat8和Sentinel-2数据

下一篇： Python|闭包&装饰器