Java中字符串拼接的一些细节分析
工作日忙于项目的逻辑实现,周六有点时间,从书柜里拿出厚厚的英文版thinking in java,读到了字符串对象的拼接。参考着这本书做个翻译,加上自己思考的东西,写上这篇文章记录一下。
不可变的string对象
在java中,string对象是不可变的(immutable)。在代码中,可以创建多个某一个string对象的别名。但是这些别名都是的引用是相同的。
比如s1和s2都是”droidyue.com”对象的别名,别名保存着到真实对象的引用。所以s1 = s2
string s1 = "droidyue.com";
string s2 = s1;
system.out.println("s1 and s2 has the same reference =" + (s1 == s2));
java中仅有的重载运算符
在java中,唯一被重载的运算符就是字符串的拼接相关的。+,+=。除此之外,java设计者不允许重载其他的运算符。
拼接剖析
真的有性能代价么
了解了上面两点,可能会有这样的思考,既然sting对象不可变,那么多个(三个及以上)字符串拼接必然产生多余的中间string对象。
string username = "andy";
string age = "24";
string job = "developer";
string info = username + age + job;
要得到上面的info,就会username和age拼接生成临时一个string对象t1,内容为andy24,然后有t1和job拼接生成最终我们需要的info对象,这其中,产生了一个中间的t1,而且t1创建之后,没有主动回收,势必会占一定的空间。如果是一个很多(假设上百个,多见于对对象的tostring的调用)字符串的拼接,那么代价就更大了,性能一下会降低很多。
编译器的优化处理
真的会有上面的性能代价么,字符串拼接这么常用,没有特殊的处理优化么,答案是有的,这个优化进行在编译器编译.java到bytecode时。
一个java程序如果想运行起来,需要经过两个时期,编译时和运行时。在编译时,java 编译器(compiler)将java文件转换成字节码。在运行时,java虚拟机(jvm)运行编译时生成的字节码。通过这样两个时期,java做到了所谓的一处编译,处处运行。
我们实验一下编译期都做了哪些优化,我们制造一段可能会出现性能代价的代码。
public class concatenation {
public static void main(string[] args) {
string username = "andy";
string age = "24";
string job = "developer";
string info = username + age + job;
system.out.println(info);
}
}
对concatenation.java进行编译一下。得到concatenation.class
javac concatenation.java
然后我们使用javap反编译一下编译出来的concatenation.class文件。javap -c concatenation。如果没有找到javap命令,请考虑将javap所在目录加入环境变量或者使用javap的完整路径。
17:22:04-androidyue~/workspace_adt/strings/src$ javap -c concatenation
compiled from "concatenation.java"
public class concatenation {
public concatenation();
code:
0: aload_0
1: invokespecial #1 // method java/lang/object."<init>":()v
4: return
public static void main(java.lang.string[]);
code:
0: ldc #2 // string andy
2: astore_1
3: ldc #3 // string 24
5: astore_2
6: ldc #4 // string developer
8: astore_3
9: new #5 // class java/lang/stringbuilder
12: dup
13: invokespecial #6 // method java/lang/stringbuilder."<init>":()v
16: aload_1
17: invokevirtual #7 // method java/lang/stringbuilder.append:(ljava/lang/string;)ljava/lang/stringbuilder;
20: aload_2
21: invokevirtual #7 // method java/lang/stringbuilder.append:(ljava/lang/string;)ljava/lang/stringbuilder;
24: aload_3
25: invokevirtual #7 // method java/lang/stringbuilder.append:(ljava/lang/string;)ljava/lang/stringbuilder;
28: invokevirtual #8 // method java/lang/stringbuilder.tostring:()ljava/lang/string;
31: astore 4
33: getstatic #9 // field java/lang/system.out:ljava/io/printstream;
36: aload 4
38: invokevirtual #10 // method java/io/printstream.println:(ljava/lang/string;)v
41: return
}
其中,ldc,astore等为java字节码的指令,类似汇编指令。后面的注释使用了java相关的内容进行了说明。 我们可以看到上面有很多stringbuilder,但是我们在java代码里并没有显示地调用,这就是java编译器做的优化,当java编译器遇到字符串拼接的时候,会创建一个stringbuilder对象,后面的拼接,实际上是调用stringbuilder对象的append方法。这样就不会有我们上面担心的问题了。
仅靠编译器优化?
既然编译器帮我们做了优化,是不是仅仅依靠编译器的优化就够了呢,当然不是。
下面我们看一段未优化性能较低的代码
public void implicitusestringbuilder(string[] values) {
string result = "";
for (int i = 0 ; i < values.length; i ++) {
result += values[i];
}
system.out.println(result);
}
使用javac编译,使用javap查看
public void implicitusestringbuilder(java.lang.string[]);
code:
0: ldc #11 // string
2: astore_2
3: iconst_0
4: istore_3
5: iload_3
6: aload_1
7: arraylength
8: if_icmpge 38
11: new #5 // class java/lang/stringbuilder
14: dup
15: invokespecial #6 // method java/lang/stringbuilder."<init>":()v
18: aload_2
19: invokevirtual #7 // method java/lang/stringbuilder.append:(ljava/lang/string;)ljava/lang/stringbuilder;
22: aload_1
23: iload_3
24: aaload
25: invokevirtual #7 // method java/lang/stringbuilder.append:(ljava/lang/string;)ljava/lang/stringbuilder;
28: invokevirtual #8 // method java/lang/stringbuilder.tostring:()ljava/lang/string;
31: astore_2
32: iinc 3, 1
35: goto 5
38: getstatic #9 // field java/lang/system.out:ljava/io/printstream;
41: aload_2
42: invokevirtual #10 // method java/io/printstream.println:(ljava/lang/string;)v
45: return
其中8: if_icmpge 38 和35: goto 5构成了一个循环。8: if_icmpge 38的意思是如果jvm操作数栈的整数对比大于等于(i < values.length的相反结果)成立,则跳到第38行(system.out)。35: goto 5则表示直接跳到第5行。
但是这里面有一个很重要的就是stringbuilder对象创建发生在循环之间,也就是意味着有多少次循环会创建多少个stringbuilder对象,这样明显不好。赤裸裸地低水平代码啊。
稍微优化一下,瞬间提升逼格。
public void explicitusestringbuider(string[] values) {
stringbuilder result = new stringbuilder();
for (int i = 0; i < values.length; i ++) {
result.append(values[i]);
}
}
对应的编译后的信息
public void explicitusestringbuider(java.lang.string[]);
code:
0: new #5 // class java/lang/stringbuilder
3: dup
4: invokespecial #6 // method java/lang/stringbuilder."<init>":()v
7: astore_2
8: iconst_0
9: istore_3
10: iload_3
11: aload_1
12: arraylength
13: if_icmpge 30
16: aload_2
17: aload_1
18: iload_3
19: aaload
20: invokevirtual #7 // method java/lang/stringbuilder.append:(ljava/lang/string;)ljava/lang/stringbuilder;
23: pop
24: iinc 3, 1
27: goto 10
30: return
从上面可以看出,13: if_icmpge 30和27: goto 10构成了一个loop循环,而0: new #5位于循环之外,所以不会多次创建stringbuilder.
总的来说,我们在循环体中需要尽量避免隐式或者显式创建stringbuilder. 所以那些了解代码如何编译,内部如何执行的人,写的代码档次都比较高。
以上文章,如有错误,请批评指正 。