欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

深入理解HashSet(底层是HashMap)

程序员文章站 2022-04-29 23:30:10
...

https://blog.csdn.net/HD243608836/article/details/80214413

首先是有一个悲伤的故事

讲道理,这是面试时遇到的第一个卡壳以至于转移面试官注意力的地方(……),还好之前有被人指点一下加确实已经仔细研究过HashMap,才不至于无法补救

其次我TM惊呆了

本想着回来以后好好看看HashSet的底层实现,结果打开源码一看的我惊呆了 
深入理解HashSet(底层是HashMap)
wocao怎么这么刺眼呢?你是set啊,你是Collection的子类啊,你叔叔才是Map啊, 
深入理解HashSet(底层是HashMap) 
你这样我心好痛啊 
深入理解HashSet(底层是HashMap) 
冷静下来我仔细一想,Set不能有重复的元素,HashMap不允许有重复的键,又是一口老血,当时也没想到也没敢去这么想

转一下dalao的博客

于是接着去看网上的dalao的博客,发现了这一篇私自转载dalao博文侵删

HashSet概述和实现

HashSet实现Set接口,由哈希表(实际上是一个HashMap实例)支持。它不保证set 的迭代顺序;特别是它不保证该顺序恒久不变,此类允许使用null元素。 
在HashSet中,元素都存到HashMap键值对的Key上面,而Value时有一个统一的值private static final Object PRESENT = new Object();,(定义一个虚拟的Object对象作为HashMap的value,将此对象定义为static final。)

HashSet插入

当有新值加入时,底层的HashMap会判断Key值是否存在(HashMap细节请移步深入理解HashMap),如果不存在,则插入新值,同时这个插入的细节会依照HashMap插入细节;如果存在就不插入

删除

同HashMap删除原理

源码分析

盗(xue)用(xi)一下dalao 的分析代码,侵权请告之,立马删除

  1. public class HashSet<E>
  2. extends AbstractSet<E>
  3. implements Set<E>, Cloneable, java.io.Serializable
  4. {
  5. static final long serialVersionUID = -5024744406713321676L;
  6. // 底层使用HashMap来保存HashSet中所有元素。
  7. private transient HashMap<E,Object> map;
  8. // 定义一个虚拟的Object对象作为HashMap的value,将此对象定义为static final。
  9. private static final Object PRESENT = new Object();
  10. /**
  11. * 默认的无参构造器,构造一个空的HashSet。
  12. *
  13. * 实际底层会初始化一个空的HashMap,并使用默认初始容量为16和加载因子0.75。
  14. */
  15. public HashSet() {
  16. map = new HashMap<E,Object>();
  17. }
  18. /**
  19. * 构造一个包含指定collection中的元素的新set。
  20. *
  21. * 实际底层使用默认的加载因子0.75和足以包含指定
  22. * collection中所有元素的初始容量来创建一个HashMap。
  23. * @param c 其中的元素将存放在此set中的collection。
  24. */
  25. public HashSet(Collection<? extends E> c) {
  26. map = new HashMap<E,Object>(Math.max((int) (c.size()/.75f) + 1, 16));
  27. addAll(c);
  28. }
  29. /**
  30. * 以指定的initialCapacity和loadFactor构造一个空的HashSet。
  31. *
  32. * 实际底层以相应的参数构造一个空的HashMap。
  33. * @param initialCapacity 初始容量。
  34. * @param loadFactor 加载因子。
  35. */
  36. public HashSet(int initialCapacity, float loadFactor) {
  37. map = new HashMap<E,Object>(initialCapacity, loadFactor);
  38. }
  39. /**
  40. * 以指定的initialCapacity构造一个空的HashSet。
  41. *
  42. * 实际底层以相应的参数及加载因子loadFactor为0.75构造一个空的HashMap。
  43. * @param initialCapacity 初始容量。
  44. */
  45. public HashSet(int initialCapacity) {
  46. map = new HashMap<E,Object>(initialCapacity);
  47. }
  48. /**
  49. * 以指定的initialCapacity和loadFactor构造一个新的空链接哈希集合。
  50. * 此构造函数为包访问权限,不对外公开,实际只是是对LinkedHashSet的支持。
  51. *
  52. * 实际底层会以指定的参数构造一个空LinkedHashMap实例来实现。
  53. * @param initialCapacity 初始容量。
  54. * @param loadFactor 加载因子。
  55. * @param dummy 标记。
  56. */
  57. HashSet(int initialCapacity, float loadFactor, boolean dummy) {
  58. map = new LinkedHashMap<E,Object>(initialCapacity, loadFactor);
  59. }
  60. /**
  61. * 返回对此set中元素进行迭代的迭代器。返回元素的顺序并不是特定的。
  62. *
  63. * 底层实际调用底层HashMap的keySet来返回所有的key。
  64. * 可见HashSet中的元素,只是存放在了底层HashMap的key上,
  65. * value使用一个static final的Object对象标识。
  66. * @return 对此set中元素进行迭代的Iterator。
  67. */
  68. public Iterator<E> iterator() {
  69. return map.keySet().iterator();
  70. }
  71. /**
  72. * 返回此set中的元素的数量(set的容量)。
  73. *
  74. * 底层实际调用HashMap的size()方法返回Entry的数量,就得到该Set中元素的个数。
  75. * @return 此set中的元素的数量(set的容量)。
  76. */
  77. public int size() {
  78. return map.size();
  79. }
  80. /**
  81. * 如果此set不包含任何元素,则返回true。
  82. *
  83. * 底层实际调用HashMap的isEmpty()判断该HashSet是否为空。
  84. * @return 如果此set不包含任何元素,则返回true。
  85. */
  86. public boolean isEmpty() {
  87. return map.isEmpty();
  88. }
  89. /**
  90. * 如果此set包含指定元素,则返回true。
  91. * 更确切地讲,当且仅当此set包含一个满足(o==null ? e==null : o.equals(e))
  92. * 的e元素时,返回true。
  93. *
  94. * 底层实际调用HashMap的containsKey判断是否包含指定key。
  95. * @param o 在此set中的存在已得到测试的元素。
  96. * @return 如果此set包含指定元素,则返回true。
  97. */
  98. public boolean contains(Object o) {
  99. return map.containsKey(o);
  100. }
  101. /**
  102. * 如果此set中尚未包含指定元素,则添加指定元素。
  103. * 更确切地讲,如果此 set 没有包含满足(e==null ? e2==null : e.equals(e2))
  104. * 的元素e2,则向此set 添加指定的元素e。
  105. * 如果此set已包含该元素,则该调用不更改set并返回false。
  106. *
  107. * 底层实际将将该元素作为key放入HashMap。
  108. * 由于HashMap的put()方法添加key-value对时,当新放入HashMap的Entry中key
  109. * 与集合中原有Entry的key相同(hashCode()返回值相等,通过equals比较也返回true),
  110. * 新添加的Entry的value会将覆盖原来Entry的value,但key不会有任何改变,
  111. * 因此如果向HashSet中添加一个已经存在的元素时,新添加的集合元素将不会被放入HashMap中,
  112. * 原来的元素也不会有任何改变,这也就满足了Set中元素不重复的特性。
  113. * @param e 将添加到此set中的元素。
  114. * @return 如果此set尚未包含指定元素,则返回true。
  115. */
  116. public boolean add(E e) {
  117. return map.put(e, PRESENT)==null;
  118. }
  119. /**
  120. * 如果指定元素存在于此set中,则将其移除。
  121. * 更确切地讲,如果此set包含一个满足(o==null ? e==null : o.equals(e))的元素e,
  122. * 则将其移除。如果此set已包含该元素,则返回true
  123. * (或者:如果此set因调用而发生更改,则返回true)。(一旦调用返回,则此set不再包含该元素)。
  124. *
  125. * 底层实际调用HashMap的remove方法删除指定Entry。
  126. * @param o 如果存在于此set中则需要将其移除的对象。
  127. * @return 如果set包含指定元素,则返回true。
  128. */
  129. public boolean remove(Object o) {
  130. return map.remove(o)==PRESENT;
  131. }
  132. /**
  133. * 从此set中移除所有元素。此调用返回后,该set将为空。
  134. *
  135. * 底层实际调用HashMap的clear方法清空Entry中所有元素。
  136. */
  137. public void clear() {
  138. map.clear();
  139. }
  140. /**
  141. * 返回此HashSet实例的浅表副本:并没有复制这些元素本身。
  142. *
  143. * 底层实际调用HashMap的clone()方法,获取HashMap的浅表副本,并设置到HashSet中。
  144. */
  145. public Object clone() {
  146. try {
  147. HashSet<E> newSet = (HashSet<E>) super.clone();
  148. newSet.map = (HashMap<E, Object>) map.clone();
  149. return newSet;
  150. } catch (CloneNotSupportedException e) {
  151. throw new InternalError();
  152. }
  153. }
  154. }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96
  • 97
  • 98
  • 99
  • 100
  • 101
  • 102
  • 103
  • 104
  • 105
  • 106
  • 107
  • 108
  • 109
  • 110
  • 111
  • 112
  • 113
  • 114
  • 115
  • 116
  • 117
  • 118
  • 119
  • 120
  • 121
  • 122
  • 123
  • 124
  • 125
  • 126
  • 127
  • 128
  • 129
  • 130
  • 131
  • 132
  • 133
  • 134
  • 135
  • 136
  • 137
  • 138
  • 139
  • 140
  • 141
  • 142
  • 143
  • 144
  • 145
  • 146
  • 147
  • 148
  • 149
  • 150
  • 151
  • 152
  • 153
  • 154
  • 155
  • 156
  • 157
  • 158
  • 159
  • 160
  • 161
  • 162
  • 163
  • 164
  • 165
  • 166
  • 167
  • 168
  • 169

注意

  • 说白了,HashSet就是限制了功能的HashMap,所以了解HashMap的实现原理,这个HashSet自然就通
  • 对于HashSet中保存的对象,主要要正确重写equals方法和hashCode方法,以保证放入Set对象的唯一性
  • 虽说是Set是对于重复的元素不放入倒不如直接说是底层的Map直接把原值替代了(这个Set的put方法的返回值真有意思)
  • HashSet没有提供get()方法,愿意是同HashMap一样,Set内部是无序的,只能通过迭代的方式获得

说起来你可能不信

本来是打算分开写集合框架的底层分析的,直到我发现,LinkedHashSet是继承自HashSet,底层实现是LinkedHashMap。并且其初始化时直接super(......),瞬间我就觉得,Set写在一起得了

LinkedHashSet

同HashSet相比并没有实现新的功能(新的方法),只不过把HashSet中预留的构造方法启用了,因而可以实现有序插入,而这个具体的实现要去看LinkedHashMap了,我们使用时是不需要再可以去设置参数的,直接拿来用即可。

  1. /**
  2. * The iteration ordering method for this linked hash map: <tt>true</tt>
  3. * for access-order, <tt>false</tt> for insertion-order.
  4. *
  5. * @serial
  6. */
  7. final boolean accessOrder;
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

查看了LinkedHashMap的构造方法后,发现其因为继承自HashMap,所以其底层实现也是HashMap!!!(呵呵,我已经发现了……怪不得还是得主要研究HashMap啊),然后发现了LinkedHashMap调用父类构造方法初始化时,还顺便设置了变量accessOrder = false,看上面得源码可以知道,这是给了迭代器一个参数,false代表迭代时使用插入得顺序(追根溯源了,真爽)

偶然发现

查看源码时,我发现了一个奇怪的重写的方法:public Spliterator<E> spliterator(),查了查资料发现叫做可分割迭代器,这个接口是为了并行遍历数据源中的元素而设计的迭代器,为了更好的发挥多核CPU的能力。 
其实这样我想起了要去关注一下集合框架中的并发安全了。

TreeSet

根据Set的这个尿性,我先猜测一波,TreeSet的底层实现是TreeMap(而且我在猜TreeMap的底层实现借助了HashMap)。一看源码,哎呦我去,还真是(呵呵,到底谁才是你爹…..心疼一波Collection,Map又不继承Collection接口)

  1. public TreeSet() {
  2. this(new TreeMap<E,Object>());
  3. }
  • 1
  • 2
  • 3
  • 1
  • 2
  • 3

TreeSet特点与实现机制

TreeSet中存放的元素是有序的(不是插入时的顺序,是有按关键字大小排序的),且元素不能重复。 
而如何实现有序存储,就需要有一个比较器,其实说起来,TreeSet更受关注的是不重复且有序,这个有序就需要有一个compare的过程,因此会需要参数实现Comparable接口。

  1. /**
  2. * Constructs a new, empty tree set, sorted according to the specified
  3. * comparator. All elements inserted into the set must be <i>mutually
  4. * comparable</i> by the specified comparator: {@code comparator.compare(e1,
  5. * e2)} must not throw a {@code ClassCastException} for any elements
  6. * {@code e1} and {@code e2} in the set. If the user attempts to add
  7. * an element to the set that violates this constraint, the
  8. * {@code add} call will throw a {@code ClassCastException}.
  9. *
  10. * @param comparator the comparator that will be used to order this set.
  11. * If {@code null}, the {@linkplain Comparable natural
  12. * ordering} of the elements will be used.
  13. */
  14. public TreeSet(Comparator<? super E> comparator) {
  15. this(new TreeMap<>(comparator));
  16. }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16

所以说

所以说使用Set需要注意的还是根据自己的需求选取正确的存储结构即可,而因为并没有get()方法给你使用,所以还是要用迭代器来获取想要的元素,然后本次Set深入分析到此结束,我要去再开一坑研究TreeMap了(滑稽)

小总结

经历这么一次滑稽的经历,看来真的有必要把几个常用的集合框架的底层实现都看一遍,以免再次搞出这样的尴尬(手动滑稽) 
其实深入到这个程度我觉得常用的集合除了List的家族还有Queue,其实都可以规约为深入理解HashMap,来,就是这个节奏。走起。