Java集合之整体结构
一、java中集合
java中集合类是java编程中使用最频繁、最方便的类。集合类作为容器类可以存储任何类型的数据,当然也可以结合泛型存储指定的类型(不过泛型仅仅在编译期有效,运行时是会被擦除的)。集合类中存储的仅仅是对象的引用,并不存储对象本身。集合类的容量可以在运行期间进行动态扩展,并且还提供很多很方便的方法,如求集合的并集、交集等。
二、集合类结构
java中的集合包含多种数据结构,如链表、队列、哈希表等。从类的继承结构来说,可以分为两大类,一类是继承自collection接口,这类集合包含list、set和queue等集合类。另一类是继承自map接口,这主要包含了哈希表相关的集合类。下面我们看一下这两大类的继承结构图:
1、list、set和queue
图中的绿色的虚线代表实现,绿色实线代表接口之间的继承,蓝色实线代表类之间的继承。
(1)list:我们用的比较多list包括arraylist和linkedlist,这两者的区别也很明显,从其名称上就可以看出。arraylist的底层的通过数组实现,所以其随机访问的速度比较快,但是对于需要频繁的增删的情况,效率就比较低了。而对于linkedlist,底层通过链表来实现,所以增删操作比较容易完成,但是对于随机访问的效率比较低。
我们先看下两者的插入效率:
package com.paddx.test.collection; import java.util.arraylist; import java.util.linkedlist; public class listtest { public static void main(string[] args) { for(int i=;i<;i++){ } long start = system.currenttimemillis(); linkedlist<integer> linkedlist = new linkedlist<integer>(); for(int i=;i<;i++){ linkedlist.add(,i); } long end = system.currenttimemillis(); system.out.println(end - start); arraylist<integer> arraylist = new arraylist<integer>(); for(int i=;i<;i++){ arraylist.add(,i); } system.out.println(system.currenttimemillis() - end); } }
下面是本地执行的结果:
23
1227
可以看出,在这种情况下,linkedlist的插入效率远远高于arraylist,当然这是一种比较极端的情况。我们再来比较一下两者随机访问的效率:
package com.paddx.test.collection; import java.util.arraylist; import java.util.linkedlist; import java.util.random; public class listtest { public static void main(string[] args) { random random = new random(); for(int i=;i<;i++){ } linkedlist<integer> linkedlist = new linkedlist<integer>(); for(int i=;i<;i++){ linkedlist.add(i); } arraylist<integer> arraylist = new arraylist<integer>(); for(int i=;i<;i++){ arraylist.add(i); } long start = system.currenttimemillis(); for(int i=;i<;i++){ int j = random.nextint(i+); int k = linkedlist.get(j); } long end = system.currenttimemillis(); system.out.println(end - start); for(int i=;i<;i++){ int j = random.nextint(i+); int k = arraylist.get(j); } system.out.println(system.currenttimemillis() - end); } }
下面是我本机执行的结果:
5277
6
很明显可以看出,arraylist的随机访问效率比linkedlist高出好几个数量级。通过这两段代码,我们应该能够比较清楚的知道linkedlist和arraylist的区别和适应的场景。至于vector,它是arraylist的线程安全版本,而stack则对应栈数据结构,这两者用的比较少,这里就不举例了。
(2)queue:一般可以直接使用linkedlist完成,从上述类图也可以看出,linkedlist继承自deque,所以linkedlist具有双端队列的功能。priorityqueue的特点是为每个元素提供一个优先级,优先级高的元素会优先出队列。
(3)set:set与list的主要区别是set是不允许元素重复的,而list则可以允许元素重复的。判断元素的重复需要根据对象的hash方法和equals方法来决定。这也是我们通常要为集合中的元素类重写hashcode方法和equals方法的原因。我们还是通过一个例子来看一下set和list的区别,以及hashcode方法和equals方法的作用:
package com.paddx.test.collection; import java.util.arraylist; import java.util.hashset; import java.util.set; public class settest { public static void main(string[] args) { person p1 = new person("lxp",10); person p2 = new person("lxp",10); person p3 = new person("lxp",20); arraylist<person> list = new arraylist<person>(); list.add(p1); system.out.println("---------"); list.add(p2); system.out.println("---------"); list.add(p3); system.out.println("list size=" + list.size()); system.out.println("----分割线-----"); set<person> set = new hashset<person>(); set.add(p1); system.out.println("---------"); set.add(p2); system.out.println("---------"); set.add(p3); system.out.println("set size="+set.size()); } static class person{ private string name; private int age; public person(string name, int age) { this.name = name; this.age = age; } @override public boolean equals(object o) { system.out.println("call equals();name="+name); if (this == o) return true; if (o == null || getclass() != o.getclass()) return false; person person = (person) o; return name.equals(person.name); } @override public int hashcode() { system.out.println("call hashcode(),age="+age); return age; } } }
上述代码的执行结果如下:
---------
---------
list size=3
----分割线-----
call hashcode(),age=10
---------
call hashcode(),age=10
call equals();name=lxp
---------
call hashcode(),age=20
set size=2
从结果看出,元素加入list的时候,不执行额外的操作,并且可以重复。而加入set之前需要先执行hashcode方法,如果返回的值在集合中已存在,则要继续执行equals方法,如果equals方法返回的结果也为真,则证明该元素已经存在,会将新的元素覆盖老的元素,如果返回hashcode值不同,则直接加入集合。这里记住一点,对于集合中元素,hashcode值不同的元素一定不相等,但是不相等的元素,hashcode值可能相同。
hashset和linkedhashset的区别在于后者可以保证元素插入集合的元素顺序与输出顺序保持一致。而tresset的区别在于其排序是按照comparator来进行排序的,默认情况下按照字符的自然顺序进行升序排列。
(4)iterable:从这个图里面可以看到collection类继承自iterable,该接口的作用是提供元素遍历的功能,也就是说所有的集合类(除map相关的类)都提供元素遍历的功能。iterable里面包含了iterator的迭代器,其源码如下,大家如果熟悉迭代器模式的话,应该很容易理解。
public interface iterator<e> { boolean hasnext(); e next(); void remove(); }
2、map:
map类型的集合最大的优点在于其查找效率比较高,理想情况下可以实现o(1)的时间复杂度。map中最常用的是hashmap,linkedhashmap与hashmap的区别在于前者能够保证插入集合的元素顺序与输出顺序一致。这两者与treemap的区别在于treemap是根据键值进行排序的,当然其底层的实现也有本质的区别,如hashmap底层是一个哈希表,而treemap的底层数据结构是一棵树。我们现在看下treemap与linkedhashmap的区别:
package com.paddx.test.collection; import java.util.iterator; import java.util.linkedhashmap; import java.util.map; import java.util.treemap; public class maptest { public static void main(string[] args) { map<string,string> treemap = new treemap<string,string>(); map<string,string> linkedmap = new linkedhashmap<string, string>(); treemap.put("b",null); treemap.put("c",null); treemap.put("a",null); for (iterator<string> iter = treemap.keyset().iterator();iter.hasnext();){ system.out.println("treemap="+iter.next()); } system.out.println("----------分割线---------"); linkedmap.put("b",null); linkedmap.put("c",null); linkedmap.put("a",null); for (iterator<string> iter = linkedmap.keyset().iterator();iter.hasnext();){ system.out.println("linkedhashmap="+iter.next()); } } }
运行上述代码,执行结果如下:
treemap=a
treemap=b
treemap=c
----------分割线---------
linkedhashmap=b
linkedhashmap=c
linkedhashmap=a
从运行结果可以很明显的看出这treemap和linkedhashmap的区别,前者是按字符串排序进行输出的,而后者是根据插入顺序进行输出的。细心的读者可以发现,hashmap与treemap的区别,与之前提到的hashset与treeset的区别是一致的,在后续进行源码分析的时候,我们可以看到hashset和treeset本质上分别是通过hashmap和treemap来实现的,所以它们的区别自然也是相同的。hashtable现在已经很少使用了,与hashmap的主要区别是hashtable是线程安全的,不过由于其效率比较低,所以通常使用hashmap,在多线程环境下,通常用currenthashmap来代替。
三、总结
本文只是从整体上介绍了java集合框架及其继承关系。除了上述类,集合还提供collections和arrays两个工具类,此外,集合中排序跟comparable和comparator紧密相关。在之后的文章中将对上述提的类在jdk中实现源码进行详细分析。