欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Java ArrayList底层实现原理源码详细分析Jdk8

程序员文章站 2024-02-03 17:10:04
ArrayList是基于数组实现的,是一个动态数组,其容量能自动增长,类似于C语言中的动态申请内存,动态增长内存。 ArrayList不是线程安全的,只能用在单线程环境下,多线程环境下可以考虑用Collections.synchronizedList(List l)函数返回一个线程安全的Array... ......

简介

  • arraylist是基于数组实现的,是一个动态数组,其容量能自动增长,类似于c语言中的动态申请内存,动态增长内存。
  • arraylist不是线程安全的,只能用在单线程环境下,多线程环境下可以考虑用collections.synchronizedlist(list l)函数返回一个线程安全的arraylist类,也可以使用concurrent并发包下的copyonwritearraylist类。
  • arraylist实现了serializable接口,因此它支持序列化,能够通过序列化传输,实现了randomaccess接口,支持快速随机访问,实际上就是通过下标序号进行快速访问,实现了cloneable接口,能被克隆。

存储结构

// 当前数据对象存放地方,当前对象不参与序列化
// 这个关键字最主要的作用就是当序列化时,被transient修饰的内容将不会被序列化
transient object[] elementdata;
  • object类型数组。

    数据域

    // 序列化id
    private static final long serialversionuid = 8683452581122892189l;
    // 默认初始容量
    private static final int default_capacity = 10;
    // 一个空数组,方便使用,主要用于带参构造函数初始化和读取序列化对象等。
    private static final object[] empty_elementdata = {};
    /**
     * 和官方文档写的一样,defaultcapacity_empty_elementdata 和empty_elementdata 的区别
     * 仅仅是为了区别用户带参为0的构造和默认构造的惰性初始模式对象。
     * 当用户带参为0的构造,第一次add时,数组容量grow到1。
     * 当用户使用默认构造时,第一次add时,容量直接grow到default_capacity(10)。
     */
    private static final object[] defaultcapacity_empty_elementdata = {};
 
    // 当前数据对象存放地方,当前对象不参与序列化
    // 这个关键字最主要的作用就是当序列化时,被transient修饰的内容将不会被序列化
    transient object[] elementdata; // non-private to simplify nested class access
    // 当前数组中元素的个数
    private int size;
    // 数组最大可分配容量
    private static final int max_array_size = integer.max_value - 8;
    // 集合数组修改次数的标识(由abstractlist继承下来)(fail-fast机制)
    protected transient int modcount = 0;
  • arraylist的无参构造函数。初始化的时候并没有真正的创建10个空间,这是惰性初始模式对象。
  • defaultcapacity_empty_elementdata 和empty_elementdata 的区别仅仅是为了区别用户带参为0的构造和默认构造的惰性初始模式对象。
  • modcount用来记录arraylist结构发生变化的次数。用于fail-fast机制

构造函数

    public arraylist() {
        // 只有这个地方会引用defaultcapacity_empty_elementdata
        this.elementdata = defaultcapacity_empty_elementdata;
    }
    
    public arraylist(int initialcapacity) {
        if (initialcapacity > 0) {
            this.elementdata = new object[initialcapacity];
        } else if (initialcapacity == 0) {
            // 使用 empty_elementdata,在其他的多个地方可能会引用empty_elementdata
            this.elementdata = empty_elementdata;
        } else {
            throw new illegalargumentexception("illegal capacity: "+
                                               initialcapacity);
        }
    }
   
    public arraylist(collection<? extends e> c) {
        // 把传入集合传化成[]数组并浅拷贝给elementdata 
        elementdata = c.toarray();
        // 转化后的数组长度赋给当前arraylist的size,并判断是否为0
        if ((size = elementdata.length) != 0) {
            //c.toarray可能不会返回 object[],可以查看 java 官方编号为 6260652 的 bug
            if (elementdata.getclass() != object[].class)
                // 若 c.toarray() 返回的数组类型不是 object[],则利用 arrays.copyof(); 来构造一个大小为 size 的 object[] 数组
                // 此时elementdata是指向传入集合的内存,还需要创建新的内存区域深拷贝给elementdata 
                elementdata = arrays.copyof(elementdata, size, object[].class);
        } else {
            // 传入数组size为零替换空数组
            this.elementdata = empty_elementdata;
        }
    }
  • defaultcapacity_empty_elementdata 和empty_elementdata 的区别仅仅是为了区别用户带参为0的构造和默认构造的惰性初始模式对象。
  • 注意深拷贝和浅拷贝
  • 带参为0的构造会惰性初始化,不为0的构造则不会惰性初始化。

    add()源码解析

public boolean add(e e) {
        // 确保数组已使用长度(size)加1之后足够存下 下一个数据
        ensurecapacityinternal(size + 1);  // increments modcount!!
        // 数组的下一个index存放传入元素。
        elementdata[size++] = e;
        // 始终返回true。
        return true;
}
private void ensurecapacityinternal(int mincapacity) {
        ensureexplicitcapacity(calculatecapacity(elementdata, mincapacity));
}
private static int calculatecapacity(object[] elementdata, int mincapacity) {
        // 这里就是defaultcapacity_empty_elementdata 和
        // empty_elementdata 最主要的区别。
        if (elementdata == defaultcapacity_empty_elementdata) {
            // 默认构造第一次add返回10。
            return math.max(default_capacity, mincapacity);
        }
        // 带参为0构造第一次add返回 1 (0 + 1)。
        return mincapacity;
}
private void ensureexplicitcapacity(int mincapacity) {
        // 自增修改计数
        modcount++;

        // overflow-conscious code
        // 当前数组容量小于需要的最小容量
        if (mincapacity - elementdata.length > 0)
            // 准备扩容数组
            grow(mincapacity);
}
private void grow(int mincapacity) {
        // overflow-conscious code
        // 获得当前数组容量
        int oldcapacity = elementdata.length;
        // 新数组容量为1.5倍的旧数组容量
        int newcapacity = oldcapacity + (oldcapacity >> 1);
        if (newcapacity - mincapacity < 0)
            // 若 newcapacity 依旧小于 mincapacity
            newcapacity = mincapacity;
            // 判断是需要的容量是否超过最大的数组容量。
        if (newcapacity - max_array_size > 0)
            newcapacity = hugecapacity(mincapacity);
        // mincapacity is usually close to size, so this is a win:
        // 在arrays.copyof()中会将原数组整个赋值到扩容的数组中。
        elementdata = arrays.copyof(elementdata, newcapacity);
}
  • 扩容操作需要调用arrays.copyof()把原数组整个复制到新数组中,这个操作代价很高,因此最好在创建arraylist对象时就指定大概的容量大小,减少扩容操作的次数。

add(int index, e element)源码分析

// 这是一个本地方法,由c语言实现。
public static native void arraycopy(object src,  // 源数组
                                    int  srcpos, // 源数组要复制的起始位置
                                    object dest, // 目标数组(将原数组复制到目标数组)
                                    int destpos, // 目标数组起始位置(从目标数组的哪个下标开始复制操作)
                                    int length   // 复制源数组的长度
                                    );

public void add(int index, e element) {
        // 判断索引是否越界
        rangecheckforadd(index);
        // 确保数组已使用长度(size)加1之后足够存下 下一个数据
        ensurecapacityinternal(size + 1);  // increments modcount!!
        // 运行到这里代表数组容量满足。
        // 数组从传入形参index处开始复制,复制size-index个元素(即包括index在内后面的元素全部复制),
        // 从数组的index + 1处开始粘贴。
        // 这时,index 和 index + 1处元素数值相同。
        system.arraycopy(elementdata, index, elementdata, index + 1,
                         size - index);
        // 把index处的元素替换成新的元素。
        elementdata[index] = element;
        // 数组内元素长度加一。
        size++;
}
  • 需要调用system.arraycopy()将包括index在内后面的元素都复制到index + 1位置上,该操作的时间复杂度为o(n),可以看出arraylist数组头增加元素的代价是非常高的。

remove(int index)源码分析

public e remove(int index) {
        // 检查index 
        rangecheck(index);

        modcount++;
        e oldvalue = elementdata(index);

        int nummoved = size - index - 1;
        if (nummoved > 0)
            // 和 add(int index, e element)原理想通。
            system.arraycopy(elementdata, index+1, elementdata, index,
                             nummoved);
        // 引用计数为0,会自动进行垃圾回收。
        elementdata[--size] = null; // clear to let gc do its work
        // 返回旧元素
        return oldvalue;
    }
  • 需要调用system.arraycopy()将包括index + 1在内后面的元素都复制到index位置上,该操作的时间复杂度为o(n),可以看出arraylist数组头增加元素的代价是非常高的。

fail-fast机制

fail-fast 机制,即快速失败机制,是java集合(collection)中的一种错误检测机制。当在迭代集合的过程中该集合在结构上发生改变的时候,就有可能会发生fail-fast,即抛出concurrentmodificationexception异常。fail-fast机制并不保证在不同步的修改下一定会抛出异常,它只是尽最大努力去抛出,所以这种机制一般仅用于检测bug。

  • 结构发生变化是指添加或者删除至少一个元素的所有操作,或者是调整内部数组大小,仅仅只是设置元素的值不算结构发生变化。
  • 在进行序列化或者迭代操作时,需要比较操作前后modcount是否改变,如果改变了需要跑出concurrentmodificationexception
private class itr implements iterator<e> {
        int cursor;
        int lastret = -1;
        // 期待的修改值等于当前修改次数(modcount)
        int expectedmodcount = modcount;
 
        public boolean hasnext() {
            return cursor != size;
        }
 
        public e next() {
            // 检查 expectedmodcount是否等于modcount,不相同则抛出concurrentmodificationexception
            checkforcomodification();
            /** 省略此处代码 */
        }
 
        public void remove() {
            if (this.lastret < 0)
                throw new illegalstateexception();
            checkforcomodification();
            /** 省略此处代码 */
        }
 
        final void checkforcomodification() {
            if (arraylist.this.modcount == this.expectedmodcount)
                return;
            throw new concurrentmodificationexception();
        }
    }

一个单线程环境下的fail-fast的例子

     public static void main(string[] args) {
           list<string> list = new arraylist<>();
           for (int i = 0 ; i < 10 ; i++ ) {
                list.add(i + "");
           }
           iterator<string> iterator = list.iterator();
           int i = 0 ;
           while(iterator.hasnext()) {
                if (i == 3) {
                     list.remove(3);
                }
                system.out.println(iterator.next());
                i ++;
           }
     }

序列化

arraylist 实现了 java.io.serializable 接口,但是自己定义了序列化和反序列化。因为arraylist基于数组实现,并且具有动态扩容特性,因此保存元素的数组不一定都会被使用,那么就没有必要全部进行序列化。因此 elementdata 数组使用 transient 修饰,可以防止被自动序列化。

private void writeobject(java.io.objectoutputstream s)
        throws java.io.ioexception{
        // write out element count, and any hidden stuff
        int expectedmodcount = modcount;
        // 将当前类的非静态(non-static)和非瞬态(non-transient)字段写入流
        // 在这里也会将size字段写入。
        s.defaultwriteobject();

        // write out size as capacity for behavioural compatibility with clone()
        // 序列化数组包含元素数量,为了向后兼容
        // 两次将size写入流
        s.writeint(size);

        // write out all elements in the proper order.
        // 按照顺序写入,只写入到数组包含元素的结尾,并不会把数组的所有容量区域全部写入
        for (int i=0; i<size; i++) {
            s.writeobject(elementdata[i]);
        }
        // 判断是否触发fast-fail
        if (modcount != expectedmodcount) {
            throw new concurrentmodificationexception();
        }
    }
    private void readobject(java.io.objectinputstream s)
        throws java.io.ioexception, classnotfoundexception {
        // 设置数组引用空数组。
        elementdata = empty_elementdata;

        // read in size, and any hidden stuff
        // 将流中的的非静态(non-static)和非瞬态(non-transient)字段读取到当前类
        // 包含 size
        s.defaultreadobject();

        // read in capacity
        // 读入元素个数,没什么用,只是因为写出的时候写了size属性,读的时候也要按顺序来读
        s.readint(); // ignored

        if (size > 0) {
            // be like clone(), allocate array based upon size not capacity
            // 根据size计算容量。
            int capacity = calculatecapacity(elementdata, size);
            // sharedsecrets 一个“共享机密”存储库,它是一种机制,
            // 用于调用另一个包中的实现专用方法,而不使用反射。todo
            sharedsecrets.getjavaoisaccess().checkarray(s, object[].class, capacity);
            // 检查是否需要扩容
            ensurecapacityinternal(size);

            object[] a = elementdata;
            // read in all elements in the proper order.
            // 依次读取元素到数组中
            for (int i=0; i<size; i++) {
                a[i] = s.readobject();
            }
        }
    }

arraylist中为什么size要序列化两次?

在代码中s.defaultwriteobject();中size应该也被序列化了,为什么下边还要再单独序列化一次呢?
这样写是出于兼容性考虑。
旧版本的jdk中,arraylist的实现有所不同,会对length字段进行序列化。
而新版的jdk中,对优化了arraylist的实现,不再序列化length字段。
这个时候,如果去掉s.writeint(size),那么新版本jdk序列化的对象,在旧版本中就无法正确读取,
因为缺少了length字段。
因此这种写法看起来多此一举,实际上却保证了兼容性。

小结

  • arraylist基于数组方式实现,无容量的限制(会扩容)
  • 添加元素时可能要扩容(所以最好预判一下),删除元素时不会减少容量(若希望减少容量可以使用trimtosize()),删除元素时,将删除掉的位置元素置为null,下次gc就会回收这些元素所占的内存空间。
  • 线程不安全
  • add(int index, e element):添加元素到数组中指定位置的时候,需要将该位置及其后边所有的元素都整块向后复制一位
  • get(int index):获取指定位置上的元素时,可以通过索引直接获取(o(1))
  • remove(object o)需要遍历数组
  • remove(int index)不需要遍历数组,只需判断index是否符合条件即可,效率比remove(object o)高
  • contains(e)需要遍历数组