什么是数据结构Hash表（哈希表）？又有哪些具体操作呢？

程序员文章站 2022-04-16 20:07:48

...

一、什么是Hash表

要想知道什么是哈希表，那得先了解哈希函数

哈希函数:

对比之前博客讨论的二叉排序树二叉平衡树红黑树 B B+树，它们的查找都是先从根节点进行查找，从节点取出数据或索引与查找值进行比较。那么，有没有一种函数H，根据这个函数和查找关键字key，可以直接确定查找值所在位置，而不需要一个个比较。这样就**“预先知道”**key所在的位置，直接找到数据，提升效率。

即地址index=H（key）

说白了，hash函数就是根据key计算出应该存储地址的位置，而哈希表是基于哈希函数建立的一种查找表

二、哈希函数的构造方法

根据前人经验，统计出如下几种常用hash函数的构造方法：

直接定制法

哈希函数为关键字的线性函数如 H（key）=a*key+b

这种构造方法比较简便，均匀，但是有很大限制，仅限于地址大小=关键字集合的情况

使用举例：

假设需要统计中国人口的年龄分布，以10为最小单元。今年是2018年，那么10岁以内的分布在2008-2018，20岁以内的分布在1998-2008……假设2018代表2018-2008直接的数据，那么关键字应该是2018，2008，1998……

那么可以构造哈希函数H（key）=（2018-key）/10=201-key/10

那么hash表建立如下

index key 年龄人数（假设数据）

0 2018 0-10 200W

1 2008 10-20 250W

2 1998 20-30 253W

3 1988 30-40 300W

……

数字分析法
假设关键字集合中的每个关键字key都是由s位数字组成（k1,k2,……,knk1,k2,……,kn）,分析key中的全体数据，并从中提取分布均匀的若干位或他们的组合构成全体

使用举例

我们知道身份证号是有规律的，现在我们要存储一个班级学生的身份证号码，假设这个班级的学生都出生在同一个地区，同一年，那么他们的身份证的前面数位都是相同的，那么我们可以截取后面不同的几位存储，假设有5位不同，那么就用这五位代表地址。

H（key）=key%100000

此种方法通常用于数字位数较长的情况，必须数字存在一定规律，其必须知道数字的分布情况，比如上面的例子，我们事先知道这个班级的学生出生在同一年，同一个地区。

平方取中法

如果关键字的每一位都有某些数字重复出现频率很高的现象，可以先求关键字的平方值，通过平方扩大差异，而后取中间数位作为最终存储地址。

使用举例

比如key=1234 1234^2=1522756 取227作hash地址

比如key=4321 4321^2=18671041 取671作hash地址

这种方法适合事先不知道数据并且数据长度较小的情况

折叠法
如果数字的位数很多，可以将数字分割为几个部分，取他们的叠加和作为hash地址
使用举例
比如key=123 456 789
我们可以存储在61524，取末三位，存在524的位置
该方法适用于数字位数较多且事先不知道数据分布的情况

除留余数法用的较多
H（key）=key MOD p （p<=m m为表长）
很明显，如何选取p是个关键问题。

使用举例