欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

String源码的自我解读

程序员文章站 2022-06-21 13:40:40
1. Stirng的修饰符和实现类public final class String implements java.io.Serializable, Comparable, CharSequence {final修饰符String不能被继承成员方法都默认是final修饰的方法类一旦创建就无法改变,对String对象的任何操作,不会影响到原对象Serializable ,Comparable, CharSequence接口2. String类的成...

1. Stirng的修饰符和实现类

public final class String
    implements java.io.Serializable, Comparable<String>, CharSequence {
  • final修饰符
    • String不能被继承
    • 成员方法都默认是final修饰的方法
    • 类一旦创建就无法改变,对String对象的任何操作,不会影响到原对象
  • Serializable ,Comparable, CharSequence接口

2. String类的成员变量

public final class String
    implements java.io.Serializable, Comparable<String>, CharSequence {
    
    private final char value[];

    private int hash; // Default to 0

    private static final long serialVersionUID = -6849794470754667710L;

    private static final ObjectStreamField[] serialPersistentFields =
        new ObjectStreamField[0];
}
  • String是通过char数组来保存字符串的
  • hash值用来hashCode()方法的计算
  • serialVersionUID属性作为String类的序列化ID
  • serialPersistentFields属性
    • 属于JAVA序列化的内容,应该清楚transient是用于指定哪个字段不被默认序列化,对于不需要序列化的属性直接用transient修饰即可。而serialPersistentFields用于指定哪些字段需要被默认序列化,具体用法如下:
    • 如果同时定义了serialPersistentFields与transient,transient会被忽略。
private static final ObjectStreamField[] serialPersistentFields = {
    new ObjectStreamField("name", String.class),
    new ObjectStreamField("age", Integer.Type)
}

3. 创建String对象

  • 直接使用"",就是使用"字面量"赋值
String name = "bruis";
  • 使用连接符"+"来赋值
String name = "ca" + "t";
  • 使用关键字new来创建对象
String name = new String("bruis");
  • 除了上面常见的,还有:
    • 使用clone()方法
    • 使用反射
    • 使用反序列化

4. String被设计为不可变性的原因

  • 主要是为了“效率”和“安全性”的缘故,若String允许被继承,由于高度被使用率,可能会降低程序的性能,所以String被定义为final。
  • 由于字符串常量池的存在,为了更有效的管理和优化字符串常量池里的对象,将String设计为不可变性。
  • 为了安全性考虑。因为使用字符串的场景非常多,设计成不可变可以有效的防止字符串被有意或者无意的篡改。
  • 作为HashMap、HashTable等hash型数据key的必要。因为不可变的设计,jvm底层很容易在缓存String对象的时候缓存其hashcode,这样再执行效率上会大大提升。

5. 了解一下JAVA内存区域

JAVA的运行时数据区包括以下几个区域:

方法区(Method Area)
Java堆区(Heap)
本地方法栈(Native Method Stack)
虚拟机栈(VM Stack)
程序技术器(Program Conter Register)
  • 总结内容:
    • 字符串常量池再每个VM中只有一份,存放的是字符串常量的值。
    • 字符串常量池——string pool,也叫做string literal pool。
    • 字符串池里的内容是在类加载完成,经过验证,准备阶段之后再堆中生成字符串对象实例,然后将该字符串对象示例的引用值存到string pool中。
    • string pool中存的是值而不是具体的实例对象,具体的实例对象实在堆中开辟的一块空间存放的。

6. String与JAVA内存区域

public class TestString {
	public static void main(String[] args) {
		String name = "bruis";
		String name2 = "bruis";
		String name3 = new String("bruis");
		//System.out.println("name == name2 : " + (name == name2));// true
		//System.out.println("name == name3 : " + (name == name3));// false
	}
}
  • 因为语句String name = “bruis”;已经将创建好的字符串对象存放在了常量池中,所以name引用指向常量池中的"bruis"对象,而name2就直接指向已经存在在常量池中的"bruis"对象,所以name和name2都指向了同一个对象。这就能理解为什么name == name2 为true了。

  • 使用new 方式创建字符串。首先会在堆上创建一个对象,然后判断字符串常量池中是否存在字符串的常量,如果不存在则在字符串常量池上创建常量;如果存在则不作任何操作。所以name是指向字符串常量池中的常量,而name3是指向堆中的对象,所以name == name3 为false。

  • java中使用"+"连接符时,效率非常低下,底层是通过StringBuilder.append()来实现的,所以如:String name = “a” + “b”;在底层是先new 出一个StringBuilder对象,然后再调用该对象的append()方法来实现的

7. javap命令

  • javap 命令能对class文件进行反编译,能够对照源代码和字节码,从而了解很多编译器内部的工作

8. String的equals方法

public boolean equals(Object anObject) {
        if (this == anObject) {
            return true;
        }
        if (anObject instanceof String) {
            String anotherString = (String)anObject;
            int n = value.length;
            if (n == anotherString.value.length) {
                char v1[] = value;
                char v2[] = anotherString.value;
                int i = 0;
                while (n-- != 0) {
                    if (v1[i] != v2[i])
                        return false;
                    i++;
                }
                return true;
            }
        }
        return false;
    }
  • equals方法比较是"字符串对象的地址",如果不相同则比较字符串的内容,实际也就是char数组的内容。

9. String的hashcode方法

public int hashCode() {
        int h = hash;
        if (h == 0 && value.length > 0) {
            char val[] = value;

            for (int i = 0; i < value.length; i++) {
                h = 31 * h + val[i];
            }
            hash = h;
        }
        return h;
    }
  • String类中,有个字段hash存储着String的哈希值,如果字符串为空,则hash的值为0。String类中的hasCode计算方法就是以31为权,每一位为字符的ASCII值进行运算,用自然溢出来等效取模,经过第一次的hashcode计算之后,属性hash就会赋哈希值。计算公式如下:
s[0]*31^(n-1) + s[1]*31^(n-2) + ... + s[n-1]

10. String的compareTo()方法

 public int compareTo(String anotherString) {
        int len1 = value.length;
        int len2 = anotherString.value.length;
        int lim = Math.min(len1, len2);
        char v1[] = value;
        char v2[] = anotherString.value;

        int k = 0;
        while (k < lim) {
            char c1 = v1[k];
            char c2 = v2[k];
            if (c1 != c2) {
                return c1 - c2;
            }
            k++;
        }
        return len1 - len2;
    }
  • 这方法时先比较两个字符串内的字符串数组的ASCII值,如果最小字符串都比较完了都还是相等的,则返回字符串长度的差值;否则在最小字符串比较完之前,字符不相等,则返回不相等字符的ASCII值差值。

11. String的startWith(String prefix)方法

public boolean startsWith(String prefix) {
        return startsWith(prefix, 0);
    }
    
    public boolean startsWith(String prefix, int toffset) {
        char ta[] = value;
        int to = toffset;
        char pa[] = prefix.value;
        int po = 0;
        int pc = prefix.value.length;
        // Note: toffset might be near -1>>>1.
        if ((toffset < 0) || (toffset > value.length - pc)) {
            return false;
        }
        while (--pc >= 0) {
            if (ta[to++] != pa[po++]) {
                return false;
            }
        }
        return true;
    }
  • 如果参数字符序列是该字符串字符序列的前缀,则返回true;否则返回false;

11. String的endsWith(String suffix)方法

 public boolean endsWith(String suffix) {
        return startsWith(suffix, value.length - suffix.value.length);
    }
  • 其实endsWith()方法就是服用了startsWith()方法而已,传进的toffset参数值时value和suffix长度差值。

12. String的indexOf(int ch)方法

public int indexOf(int ch) {
        return indexOf(ch, 0);
    }

    public int indexOf(int ch, int fromIndex) {
        final int max = value.length;
        if (fromIndex < 0) {
            fromIndex = 0;
        } else if (fromIndex >= max) {
            // Note: fromIndex might be near -1>>>1.
            return -1;
        }

        if (ch < Character.MIN_SUPPLEMENTARY_CODE_POINT) {
            final char[] value = this.value;
            for (int i = fromIndex; i < max; i++) {
                if (value[i] == ch) {
                    return i;
                }
            }
            return -1;
        } else {
            return indexOfSupplementary(ch, fromIndex);
        }
    }
  • String的indexOf(int ch)方法,查看其源码可知其方法入参为ASCII码值,然后和目标字符串的ASCII值来进行比较的。其中常量Character.MIN_SUPPLEMENTARY_CODE_POINT表示的是0x010000——十六进制的010000,十进制的值为65536,这个值表示的是十六进制的最大值。
  • 下面再看看indexOfSupplementary(ch, fromIndex)方法
private int indexOfSupplementary(int ch, int fromIndex) {
        if (Character.isValidCodePoint(ch)) {
            final char[] value = this.value;
            final char hi = Character.highSurrogate(ch);
            final char lo = Character.lowSurrogate(ch);
            final int max = value.length - 1;
            for (int i = fromIndex; i < max; i++) {
                if (value[i] == hi && value[i + 1] == lo) {
                    return i;
                }
            }
        }
        return -1;
    }
  • java中特意对超过两个字节的字符进行了处理,例如emoji之类的字符。处理逻辑就在indexOfSupplementary(int ch, int fromIndex)方法里。

  • Character.class

public static boolean isValidCodePoint(int codePoint) {
        // Optimized form of:
        //     codePoint >= MIN_CODE_POINT && codePoint <= MAX_CODE_POINT
        int plane = codePoint >>> 16;
        return plane < ((MAX_CODE_POINT + 1) >>> 16);
    }
  • 对于方法isValidCodePoint(int codePoint)方法,用于确定指定代码点是否是一个有效的Unicode代码点。代码
int plane = codePoint >>> 16;
return plane < ((MAX_CODE_POINT + 1) >>> 16);
  • 表达的就时判断codePoint是否在MIN_CODE_POINT和MAX_CODE_POINT值之间,如果是则返回true,否则返回false。

12. String的split(String regex, int limit)方法

public String[] split(String regex, int limit) {
        char ch = 0;
        if (((regex.value.length == 1 &&
             ".$|()[{^?*+\\".indexOf(ch = regex.charAt(0)) == -1) ||
             (regex.length() == 2 &&
              regex.charAt(0) == '\\' &&
              (((ch = regex.charAt(1))-'0')|('9'-ch)) < 0 &&
              ((ch-'a')|('z'-ch)) < 0 &&
              ((ch-'A')|('Z'-ch)) < 0)) &&
            (ch < Character.MIN_HIGH_SURROGATE ||
             ch > Character.MAX_LOW_SURROGATE))
        {
            int off = 0;
            int next = 0;
            // 如果limit > 0,则limited为true
            boolean limited = limit > 0;
            ArrayList<String> list = new ArrayList<>();
            while ((next = indexOf(ch, off)) != -1) {
                if (!limited || list.size() < limit - 1) {
                    list.add(substring(off, next));
                    off = next + 1;
                } else {    // last one
                    // limit > 0,直接返回原字符串
                    list.add(substring(off, value.length));
                    off = value.length;
                    break;
                }
            }
            // 如果没匹配到,则返回原字符串
            if (off == 0)
                return new String[]{this};

            // 添加剩余的字字符串
            if (!limited || list.size() < limit)
                list.add(substring(off, value.length));

            int resultSize = list.size();
            if (limit == 0) {
                while (resultSize > 0 && list.get(resultSize - 1).length() == 0) {
                    resultSize--;
                }
            }
            String[] result = new String[resultSize];
            return list.subList(0, resultSize).toArray(result);
        }
        return Pattern.compile(regex).split(this, limit);
    }

split源码内容分析

  • if判断中第一个括号先判断一个字符的情况,并且这个字符不是任何特殊的正则表达式。也就是下面的代码:
(regex.value.length == 1 &&
             ".$|()[{^?*+\\".indexOf(ch = regex.charAt(0)) == -1)
  • 如果要根据特殊字符来截取字符串,则需要使用\来进行字符转义。
  • 在if判断中,第二个括号判断有两个字符的情况,并且如果这两个字符是以\开头的,并且不是字母或者数字的时候。如下列代码所示:
(regex.length() == 2 && regex.charAt(0) == '\\' && (((ch = regex.charAt(1))-'0')|('9'-ch)) < 0 && ((ch-'a')|('z'-ch)) < 0 && ((ch-'A')|('Z'-ch)) < 0)

  • 判断完之后,在进行第三个括号判断,判断是否是两字节的unicode字符。如下列代码所示:
(ch < Character.MIN_HIGH_SURROGATE ||
             ch > Character.MAX_LOW_SURROGATE)
  • 示例1:
String splitStr1 = "what,is,,,,split";
String[] strs1 = splitStr1.split(",");
for (String s : strs1) {
    System.out.println(s);
}
System.out.println(strs1.length);
  • 运行结果:
what
is

split
6
  • 示例2:
String splitStr1 = "what,is,,,,";
String[] strs1 = splitStr1.split(",");
for (String s : strs1) {
    System.out.println(s);
}
System.out.println(strs1.length);
  • 运行结果:
what
is
2
  • 示例3:
String splitStr1 = "what,is,,,,";
String[] strs1 = splitStr1.split(",", -1);
for (String s : strs1) {
    System.out.println(s);
}
System.out.println(strs1.length);
  • 运行结果
what
is


6

详解:

  • 在split(String regex, int limit)方法的if判断内部,定义了off和next变量,作为拆分整个字符串的两个指针,然后limit作为拆分整个string字符串的一个阈值。在split()方法内部的复杂逻辑判断中,都围绕着这三个变量来进行。
  • 下面将示例代码1的字符串拆分成字符数组,如下(n代表next指针,o代表off指针):
w h a t , i s , , , ,  s  p  l  i  t
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
n 
o
  • 由于regex为’,’,所以满足if括号里的判断。一开始next和off指针都在0位置,limit为0,在while里的判断逻辑指的是获取’,'索引位置,由上图拆分的字符数组可知,next会分别为4,7,8,9,10。由于limited = limit > 0,得知limited为false,则逻辑会走到
if (!limited || list.size() < limit - 1) {
    list.add(substring(off, next));
    off = next + 1;
}
  • 进入第一次while循环体,此时的字符数组以及索引关系如下:
w h a t , i s , , , ,  s  p  l  i  t
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
        n 
o
  • 所以list集合里就会添加进字符串what。

  • 第二次进入while循环时,此时的字符数组以及索引关系如下:

w h a t , i s , , , ,  s  p  l  i  t
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
              n 
          o
  • list集合里就会添加进字符串is

  • 第三次进入while循环时,此时的字符数组以及索引关系如下:

w h a t , i s , , , ,  s  p  l  i  t
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
                n 
              o
  • list集合里就会添加进空字符串""

  • 第四次进入while循环时,此时的字符数组以及索引关系如下:

w h a t , i s , , , ,  s  p  l  i  t
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
                  n 
                o
  • list集合里就会添加进空字符串""

  • 当o指针指向位置10时,while((next = indexOf(ch, off)) != -1)结果为false,因为此时已经获取不到’,'了。

  • 注意,此时list中包含的元素有:

[what,is, , , ,]
  • 当程序走到时,
if(!limited || list.size() < limit) {
    list.add(substring(off, value.length);
}

int resultSize = list.size();
if (limit == 0) {
    while (resultSize > 0 && list.get(resultSize - 1).length() == 0) {
        resultSize--;
    }
}
  • 会将字符数组off(此时off为10)位置到value.length位置的字符串存进list集合里,也就是split元素,由于list集合最后一个元素为split,其大小不为0,所以就不会进行resultSize–。所以最终list集合里的元素就有6个元素,值为
[what,is, , , ,split]
  • 这里相信小伙伴们都知道示例1和示例2的区别在那里了,是因为示例2最后索引位置的list为空字符串,所以list.get(resultSize-1).length()为0,则会调用下面的代码逻辑:
while (resultSize > 0 && list.get(resultSize - 1).length() == 0) {
    resultSize--;
}

  • 最终会将list中的空字符串给减少。所以示例2的最终结果为
[what,is]
  • 对于入参limit,可以总结一下为:

    • limit > 0,split()方法最多把字符串拆分成limit个部分。
    • limit = 0,split()方法会拆分匹配到的最后一位regex。
    • limit < 0,split()方法会根据regex匹配到的最后一位,如果最后一位为regex,则多添加一位空字符串;如果不是则添加regex到字符串末尾的子字符串。

点击此处阅读全文

本文地址:https://blog.csdn.net/weixin_42152604/article/details/112223396