十七:迭代器模式详解(foreach的精髓)
定义:提供一种方法顺序访问一个聚合对象中各个元素,而又不需暴露该对象的内部表示。
从定义中可以看出,迭代器模式是为了在不暴露该对象内部表示的情况下,提供一种顺序访问聚合对象中元素的方法。这种思想在java集合框架中已经体现的淋漓尽致,而且lz相信每一个接触java的同学都难免要去触碰。
所以lz这次先不给出迭代器的类图与标准实现,我们先来看看迭代器模式解决了java集合框架中的哪些问题。
为了更加清晰,lz斗胆写了几个简单的集合类(向jdk类库的缔造者致敬),我们从这几个简单的集合类出发,去仔细体会下定义的意思,下面是lz分别写的缩小版的arraylist、linkedlist和hashset。
package com.iterator; public class arraylist<e> { private static final int increment = 10; private e[] array = (e[]) new object[10]; private int size; public void add(e e){ if (size < array.length) { array[size++] = e; }else { e[] copy = (e[]) new object[array.length + increment]; system.arraycopy(array, 0, copy, 0, size); copy[size++] = e; array = copy; } } public object[] toarray(){ object[] copy = new object[size]; system.arraycopy(array, 0, copy, 0, size); return copy; } public int size(){ return size; } }
package com.iterator; public class linkedlist<e> { private entry<e> header = new entry<e>(null, null, null); private int size; public linkedlist() { header.next = header.previous = header; } public void add(e e){ entry<e> newentry = new entry<e>(e, header, header.next); newentry.previous.next = newentry; newentry.next.previous = newentry; size++; } public int size(){ return size; } public object[] toarray(){ object[] result = new object[size]; int i = size - 1; for (entry<e> e = header.next; e != header; e = e.next) result[i--] = e.value; return result; } private static class entry<e>{ e value; entry<e> previous; entry<e> next; public entry(e value, entry<e> previous, entry<e> next) { super(); this.value = value; this.previous = previous; this.next = next; } } }
package com.iterator; import java.util.hashmap; import java.util.map; public class hashset<e> { private static final object null = new object(); private map<e, object> map = new hashmap<e, object>(); public void add(e e){ map.put(e, null); } public int size(){ return map.size(); } public object[] toarray(){ return map.keyset().toarray(); } }
下面我们看看三个类的遍历方式。
package com.iterator; public class main { public static void main(string[] args) { arraylist<integer> arraylist = new arraylist<integer>(); for (int i = 1; i <= 11; i++) { arraylist.add(i); } system.out.println("arraylist size:" + arraylist.size()); object[] arraylistarray = arraylist.toarray(); for (int i = 0; i < arraylistarray.length; i++) { system.out.println(arraylistarray[i]); } system.out.println("----------------------------------------------"); hashset<integer> hashset = new hashset<integer>(); for (int i = 1; i <= 11; i++) { hashset.add(i); } system.out.println("hashset size:" + hashset.size()); object[] setarray = hashset.toarray(); for (int i = 0; i < setarray.length; i++) { system.out.println(setarray[i]); } system.out.println("----------------------------------------------"); linkedlist<integer> linkedlist = new linkedlist<integer>(); for (int i = 1; i <= 11; i++) { linkedlist.add(i); } system.out.println("linkedlist size:" + linkedlist.size()); object[] linkedlistarray = linkedlist.toarray(); for (int i = 0; i < linkedlistarray.length; i++) { system.out.println(linkedlistarray[i]); } } }
结果在这里lz就不贴了,只是简单的输出三次1到11。
各位思考一下,我们这里的遍历是如何做到的。很明显,我们是通过一个通用的方法,toarray做到的。当然,为了迎合面向接口的思想,你可以添加一个接口规定toarray的行为,让三个类去实现它。
但是在这里有一个很大的弊端,不知道各位注意到没有,那就是不论我们的集合类是如何实现的(比如链表,数组,散列),在使用数组遍历集合类的时候,我们其实遍历了两次。
在这三个类中,由于system的arraycopy和set的toarray方法是黑箱子,所以最明显的便是linkedlist的实现,它是先遍历了一遍链表,做出来一个数组,然后当客户端获得到这个数组的时候,则需要再来一次循环,去遍历每一个元素。
为何会是这种情况呢?
很简单,因为我们的集合类本身就不是一个数组,所以自然要多一步从集合类到数组的过渡。哪怕是本身由数组实现的arraylist,也避免不了多这一步,各位可以试一下在arraylist中直接返回array属性,结果中会出现一堆null值,而且这样做的话,对于array的改变会直接影响到arraylist本身,这并不是我们所希望看到的,所以我们返回的只是一个拷贝。
当然,为了解决这个问题,我们并不是没有办法,比如给linkedlist和arraylist加入get方法,而这个方法有一个参数index,这是我们常用的遍历方法。如此一来,便解决了二次遍历的问题。
但是问题又来了,那就是我们无法给hashset提供一个根据索引获取元素的方法,由于散列特性的缘故,set中的元素是无序的,或者说顺序是不被保证的。那么这个get方法,在hashset中便无法提供,因为这里没有我们通俗意义上的索引的概念。
可以看到,上面lz粗浅的分析,得出一个结论。三个集合类,如果统一提供数组给客户端遍历,那么在遍历过程中会出现重复遍历的现象。而如果消除这种重复遍历,则由于内部数据结构的不同,三个集合类无法做到像提供数组一样,给客户端提供统一的遍历方式。
为了解决上面的问题,迭代器模式就随之出现了。我们先来看看迭代器模式在百度百科中的类图,稍后各位可以自己体会下,迭代器模式是否解决了上面的问题,以及是否提供了额外的一些好处。
看着上面的类图,我们可以分析出来,上面我们所写的arraylist等三个类都属于concreteaggregate的位置。如果我们刚才设计一个数组接口让三个类去实现的话,其实已经和迭代器模式十分相似了。他们的类图会是下面这样的。
在上述类图中,我们从面向对象的角度思考,将object[]当做一个对象对待,我们对比下两个类图,他们其实是非常相似的,其中最大的区别在于,第二个类图当中,没有抽象数组接口这个概念,而在迭代器模式的类图中,是有迭代器接口这个概念的。
上述区别最终所造成的结果就是,由于数组是以固定的排列方式存在的,即数组必须是一组连续的内存区域(逻辑上连续),故而以数组为基础的遍历方式只能是按照索引遍历。而迭代器则不限制,我们注意到,在迭代器模式的类图中,具体的迭代器是有一条到具体聚合对象的关联线的,这就意味着迭代器的实现是与具体的聚合对象息息相关的,也就是说迭代器满足了多种迭代方式。
好了,截止到目前,我们前面所讨论的都是为何要使用迭代器模式,或者说迭代器模式解决了哪些问题。我们来稍微总结一下。
1、迭代器模式可以提供统一的迭代方式,这个要归功于iterator接口。
2、迭代器模式可以在对客户透明的前提下,做出各种不同的迭代方式。
3、在迭代的时候不需要暴露聚合对象的内部表示,我们只需要认识iterator即可。
4、在第1条的前提下,解决了基于数组的迭代方式中重复遍历的问题。
这里lz就不再给出迭代器模式的标准代码实现了,如果各位看过lz的前十几篇设计模式,会发现,lz其实很多时候是不写标准实现的,一个是因为网上的这种资料很多,很容易找到,lz不想重复造*。还有一个重要的原因是,标准实现总难免给人死板硬套的感觉,很难让人理解,至少lz个人当时是这种感觉。
这里lz直接使用迭代器模式,将我们上面的三个集合类稍微优化一下,首先我们应该写一个迭代器接口,它大概会有类图中的那几个方法。为了简单起见,我们直接利用jdk提供的iterator接口,源码如下。
public interface iterator<e> { boolean hasnext(); e next(); void remove(); }
这里迭代器接口已经有了,我们还需要一个可迭代的类接口,在jdk中相当于iterable接口,它规定了返回一个迭代器的行为,与我们的类图中array接口类似,只不过那里是toarray方法。下面我们引用jdk中的iterable接口,非常简单,源码如下。
public interface iterable<t> { iterator<t> iterator(); }
下面我们就让三个集合类全部提供一个方法,可以返回一个iterator实例,并且实现iterable接口。
package com.iterator; import java.util.iterator; public class arraylist<e> implements iterable<e>{ private static final int increment = 10; private e[] array = (e[]) new object[10]; private int size; public void add(e e) { if (size < array.length) { array[size++] = e; } else { e[] copy = (e[]) new object[array.length + increment]; system.arraycopy(array, 0, copy, 0, size); copy[size++] = e; array = copy; } } public object[] toarray() { object[] copy = new object[size]; system.arraycopy(array, 0, copy, 0, size); return copy; } public int size() { return size; } public iterator<e> iterator() { return new itr(); } private class itr implements iterator<e> { int cursor = 0; public boolean hasnext() { return cursor != size(); } public e next() { return array[cursor++]; } public void remove() { } } }
package com.iterator; import java.util.iterator; public class linkedlist<e> implements iterable<e>{ private entry<e> header = new entry<e>(null, null, null); private int size; public linkedlist() { header.next = header.previous = header; } public void add(e e){ entry<e> newentry = new entry<e>(e, header, header.next); newentry.previous.next = newentry; newentry.next.previous = newentry; size++; } public int size(){ return size; } public object[] toarray(){ object[] result = new object[size]; int i = size - 1; for (entry<e> e = header.next; e != header; e = e.next) result[i--] = e.value; return result; } private static class entry<e>{ e value; entry<e> previous; entry<e> next; public entry(e value, entry<e> previous, entry<e> next) { super(); this.value = value; this.previous = previous; this.next = next; } } public iterator<e> iterator() { return new itr(); } private class itr implements iterator<e> { entry<e> current = header; public boolean hasnext() { return current.previous != header; } public e next() { e e = current.previous.value; current = current.previous; return e; } public void remove() { } } }
package com.iterator; import java.util.hashmap; import java.util.iterator; import java.util.map; public class hashset<e> implements iterable<e>{ private static final object null = new object(); private map<e, object> map = new hashmap<e, object>(7,1); public void add(e e){ map.put(e, null); } public int size(){ return map.size(); } public object[] toarray(){ return map.keyset().toarray(); } public iterator<e> iterator() { return map.keyset().iterator(); } }
这下我们已经将迭代器模式应用到了我们上面的例子当中,至于remove方法,我们为了简短清晰,就不做实现了,而且它并不影响我们理解迭代器模式。现在我们客户端的迭代方式就可以改变一下了。可以像下面这样迭代。
package com.iterator; import java.util.iterator; public class main { public static void main(string[] args) { arraylist<integer> arraylist = new arraylist<integer>(); for (int i = 1; i <= 11; i++) { arraylist.add(i); } system.out.println("arraylist size:" + arraylist.size()); iterator<integer> arraylistiterator = arraylist.iterator(); while(arraylistiterator.hasnext()) { system.out.println(arraylistiterator.next()); } system.out.println("----------------------------------------------"); hashset<integer> hashset = new hashset<integer>(); for (int i = 1; i <= 11; i++) { hashset.add(i); } system.out.println("hashset size:" + hashset.size()); iterator<integer> hashsetiterator = hashset.iterator(); while(hashsetiterator.hasnext()) { system.out.println(hashsetiterator.next()); } system.out.println("----------------------------------------------"); linkedlist<integer> linkedlist = new linkedlist<integer>(); for (int i = 1; i <= 11; i++) { linkedlist.add(i); } system.out.println("linkedlist size:" + linkedlist.size()); iterator<integer> linkedlistiterator = linkedlist.iterator(); while(linkedlistiterator.hasnext()) { system.out.println(linkedlistiterator.next()); } } }
其中输出的结果与第一例是一样的,都是将1到11输出三遍,可以明显的看出,我们刚才的重复遍历问题不见了,而且三个集合类的迭代方法是一样的,而有了这个特点,java在此基础上,给我们提供了foreach语法,所以我们可以写成下面这样。
package com.iterator; public class main { public static void main(string[] args) { arraylist<integer> arraylist = new arraylist<integer>(); for (int i = 1; i <= 11; i++) { arraylist.add(i); } system.out.println("arraylist size:" + arraylist.size()); for (integer i : arraylist) { system.out.println(i); } system.out.println("----------------------------------------------"); hashset<integer> hashset = new hashset<integer>(); for (int i = 1; i <= 11; i++) { hashset.add(i); } system.out.println("hashset size:" + hashset.size()); for (integer i : hashset) { system.out.println(i); } system.out.println("----------------------------------------------"); linkedlist<integer> linkedlist = new linkedlist<integer>(); for (int i = 1; i <= 11; i++) { linkedlist.add(i); } system.out.println("linkedlist size:" + linkedlist.size()); for (integer i : linkedlist) { system.out.println(i); } } }
这样一来,我们不管你是基于何种数据结构提供的集合类,我们只管foreach遍历,迭代器模式对java集合框架做出的贡献不可谓不大。下面lz带各位看看现在的类图是如何。
从类图中可以清楚的看出,与迭代器模式的类图是一模一样的,当然,客户端与iterable的依赖关系有待商议,之前我们已经提到过,java集合框架的工厂方法模式是非透明的处理方式,所以我们很多时候不会使用iterable,不过这并不影响我们对迭代器模式的理解。
然而迭代器模式所带来的好处已经不言而喻,上面分析的过程中已经提到过,lz这里不再赘述。
值得注意的是,lz全部采用的内部类作为各个集合类迭代器的实现,这在lz之前的文章中已经提到过,当时的解释是说内部类是为了完全杜绝客户端对迭代器实现类的依赖,而进行到现在,我们可以更深一步讨论。
这里我们的理解是,内部类在这里目的是为了隐藏实现细节,并且如此一来,迭代器的实现类可以*的使用集合类的各个属性,而不需要集合类提供自己属性访问的接口以及建立二者的关联关系,这种感觉十分像c/c++中的友元类。
不过缺点也接踵而至,由于具体的集合类与具体的迭代器是绑定的关系,所以这种实现方式在复用的过程中会有很大的限制甚至是不能复用,这个缺点对于c/c++中的友元类来说,是不存在的