TopK问题
程序员文章站
2022-03-24 17:35:14
...
从海量数据中找到 top K个数据
分析:
数据量很大的情况下,要找到最小/大的K条数据,通常使用堆排序,求最小的K个数,用大顶堆,求最大的K个数,用小顶堆
如果数据量很大, 不能一次读入内存,可对原始数据进行分组,获得每组数据的 top K,然后合并筛选后的数据,再找 topK
寻找最小的K个元素的算法:
void HeapAdjust(int* a,int s,int len)
{
int temp=a[s];
int j;
for(j=2*s;j<=len;j*=2)
{
if(j<len && a[j]<a[j+1])
j++;
if(a[j]<=temp)
break;
a[s]=a[j]; s=j;
}
a[s]=temp;
}
int * topK(int nums[],int len,int k)
{
if(k>=len) return nums;
int* res=new int[k];
for(int i=0;i<k;i++)
res[i]=nums[i];
//初始化大顶堆
for(int i=(k-1)/2;i>=0;i--)
HeapAdjust(res,i,k-1);
// 获得topK
for(int i=k;i<len;i++)
{
if(nums[i]<res[0])
{
res[0]=nums[i];
HeapAdjust(res,0,k-1);
}
}
return res;
}
寻找最大的K个元素的算法:
void HeapAdjust(int* a,int s,int len)
{
int temp=a[s];
int j;
for(j=2*s;j<=len;j*=2)
{
if(j<len && a[j]>a[j+1])
j++;
if(a[j]>=temp)
break;
a[s]=a[j]; s=j;
}
a[s]=temp;
}
int * topK(int nums[],int len,int k) //len为原数组长度
{
if(k>=len) return nums;
int* res=new int[k];
for(int i=0;i<k;i++)
res[i]=nums[i];
//初始化小顶堆
for(int i=(k-1)/2;i>=0;i--)
HeapAdjust(res,i,k-1);
// 获得topK
for(int i=k;i<len;i++)
{
if(nums[i]>res[0])
{
res[0]=nums[i];
HeapAdjust(res,0,k-1);
}
}
return res;
}
上一篇: 结构化数据、半结构化数据和非结构化数据
下一篇: TopK 问题
推荐阅读
-
详解iOS webview加载时序和缓存问题总结
-
iOS系统和微信中不支持audio自动播放问题的解决方法
-
iOS 11 下适配UITableView 问题
-
解决iOS11图片下拉放大出现信号栏白条的bug问题
-
ios微信浏览器返回不刷新问题完美解决方法
-
Mysql获取id最大值、表的记录总数等相关问题的方法汇总
-
完美转换MySQL的字符集 解决查看utf8源文件中的乱码问题
-
解决yii2左侧菜单子级无法高亮问题的方法
-
mysql处理添加外键时提示error 150 问题的解决方法
-
mysql建库时提示Specified key was too long max key length is 1000 bytes的问题的解决方法