Bloom Filter备忘
程序员文章站
2022-07-02 13:33:30
...
写这个纯属备忘,外加一点感悟.
Bloom Filter是一种去重的算法.
就是将庞大的需要去重的数据,进行Bloom Filter算法,首先新建一个庞大的数组a[],那么每条数据会按照hash算法,得到自己的hash值,然后在这个hash值为x的数组位置 a[x]标志为1,每个数据进行一次Bloom Filter,如果a[x]位置为1,那么表示已经有值,表示是重复数据.
完毕!
错误率就在: 庞大的数据hash值后肯定会有hash值相同的情况.
备忘:
hash值,hashtable貌似是同步的?