装箱与拆箱的“把戏”
一、“老生常谈”值类型与引用类型
众所周知,.net类型系统由 类、结构、枚举、接口 和 委托 组成。而根据内存分配的方式来区分,所有的类型又被分为 值类型 与 引用类型。
一说到值类型,大多数人都会自信地说,“值类型不就是 int,float,double...还有...额...还有啥来着?”。然后开始支支吾吾,似懂非懂,就像当初刚刚毕业的我面对面试官的提问,并且号称自己已有一年使用c#编程的经验(惭愧,惭愧)。
值类型的确是包括了int,float...这些c#预定义的数值数据类型,它们也有共同的名称,叫做结构。结构和枚举都属于值类型,它们都隐式派生自system.valuetype。简而言之,system.valuetype的作用是确保所有派生类型(如任何结构)都分配在栈上而非垃圾回收堆上。创建和销毁分配在栈上的数据都很快,因为它的生命周期是由定义的作用域决定的。值类型就像是富土康在暑假期间招的学生临时工一样,直接从各个劳务中介那里一批批地拉进工厂,不需要像正式工那样复杂的入职手续,非常方便的就能上流水线操作,解决人力需求,别问我为什么知道这么多。
有同学可能会问 int、float 怎么会是结构?easy,你把光标在vs中放在 int 上,你自然就会明白了。
由于值类型基于值的语法,结构(也包括所有数值数据类型 int、float 等,以及任何枚举或自定义结构)的生命周期是可以预测的。当结构变量离开定义域的范围是,他就会立即从内存中移除:
1 //本地变量在方法返回时弹出栈 2 static void func() 3 { 4 //“int”其实是 system.int32 结构 5 int i = 0; 6 7 //point 是结构类型 8 point p = new point(); 9 10 }//“i”和“p”在这里弹出栈 11
引用类型则被创建在堆内存中,堆内存就像是一个混乱的*,这里的一切不再像栈那样井然有序,这时就必须要有一个管理者来维持秩序。当我们new一个类对象的时候,在堆内存中就会相应地开辟出一块空间来存放这个对象并返回该对象的引用(引用实际上可以用指向对象的指针来理解,有学习过c指针的同学会有同感),每次访问对象时,都是通过引用(指针)来找到相应的对象进行操作。刚创建的类对象好比就是被扔进*里的一个犯人,而每个犯人都有自己的牢房号,当有家属要来探访犯人时,狱警就会根据牢房号来找到对应的犯人,这里的“牢房号”指的就是对象的引用(指针)。
ok,继续用*的犯人来打比方,a犯人的刑期已到,到了刑满释放的日子了(a对象的资源要被释放),那么*的管理者到时自然就会让狱警给a犯人登记出狱。然而这背后一切的秩序都是神秘的*管理者在管控着,堆内存中的神秘的管理者就是clr(common language runtime),它管理着托管堆中所有的对象资源,当对象的资源需要被释放时gc(garbage collection)就会回收对象的资源。
相比于值类型简单的入栈出栈的资源分配使用方式,引用类型资源的分配使用是在较为复杂的clr的管理下由gc执行垃圾回收机制。那有人就会问了:那既然值类型的性能高于引用类型,为什么不全都用值类型呢?或者换一种问法,我是不是可以在任何场合下肆无忌惮地使用值类型呢?
那么试想一种情况:我自定义一个struct 类型作为一个方法的参数会发生什么呢?由于值类型在赋值的时候都是赋值传递的,那么每次调用都会发生全字段的赋值,这是不可接受的,这也是典型的值类型误用场景。而相对应地,引用类型在赋值的时候采用的是引用传递,传递的是对象的引用(指针),而指针变量保存的是一个指向堆内存中对象的地址,顶多只是一个int32的值,相较于一些复杂的结构类型来说,复制一个int的值比对结构的全字段进行赋值要简单的多。
说了这么多还是不如画张图来的实在,下面两张图分别描述了在 调用参数为类类型(引用类型)函数 与 调用参数为结构类型(值类型)函数 时内存中的情况:
通过上面两张图可以很直观的看出值传递和引用传递的区别:值传递是将值类型变量的值复制一个副本然后赋值给对应的函数参数,引用传递则是将对象的引用(指针)复制一个副本再赋值传递给对应的函数参数。
ok,也很简单嘛,值传递是赋值传递值类型数据本身,引用传递就是赋值传递对象的引用(指针)。理解了值传递和引用传递的原理,那么下面大家就带着对原理的掌握来尝试解释下面代码执行的结果,废话不多说,上代码:
1 class people 2 { 3 public string name; 4 public string info; 5 } 6 7 static void main(string[] args) 8 { 9 people newpeople = new people() { name = "老大", info = "老大在main函数中被创建" }; 10 11 func1(newpeople); 12 console.writeline($"name:{newpeople.name}|info:{newpeople.info}"); 13 14 func2(ref newpeople); 15 console.writeline($"name:{newpeople.name}|info:{newpeople.info}"); 16 17 console.read(); 18 } 19 20 static void func1(people p) 21 { 22 p = new people() { name = "老二", info = "老二在func函数中被创建" }; 23 } 24 25 static void func2(ref people p) 26 { 27 p = new people() { name = "老三", info = "老三在func函数中被创建" }; 28 }
运行结果:
对这个运行结果尝试着用前面所掌握的原理来解释一遍:
在调用 func1函数 时,传入的参数为 newpeople变量值 的副本,参数 p 是一个只存在于 func1函数栈 中的 people对象 的引用(指针),在func1函数体中被重新赋值为一个新创建的 (name=“老二”)people对象 的引用(指针),但是并不影响main函数中 newpeople 变量的值,所以 newpeople 所指向的对象依然是 (name=“老大”)people对象;
在调用 func2函数 时,传入的参数 p 为newpeople变量的引用(指针),于是就可以通过 p 来直接改变 main函数栈中 newpeople变量 的值,newpeople的值被改为在 fun2函数中创建的 (name=“老三”)people对象 的引用(指针),所以newpeople指向的是(name=“老三”)people对象。
func1函数的参数传递被称为按值传递引用类型,func2函数的参数传递则被称为按引用传递引用类型(在c语言中被称作“指针的指针”)。希望此时你的脑海中已经能清晰地构建出内存变化的图像,如果能像我一样画出内存的变化图,那么你就对值传递和引用传递就已经了然于胸了。
这里再贴上一张值类型与引用类型的对比图(一目了然):
二、装箱与拆箱
大家都知道在c#中所有的类型都继承自system.object,可以说object类是所有类型的老祖宗。也正是基于这个原理,会有下面这段代码:
1 class box 2 { 3 static void main(string[] args) 4 { 5 int a = 5; 6 7 func(a); //在传入int变量a之前,clr对变量a的值进行装箱,返回object引用 8 } 9 10 static void func(object o) 11 { 12 //将引用拆箱为相应的int 13 int i = (int)o; 14 } 15 }
这段代码的看点在于:函数func的参数类型为object,由于c#中所有的类型都隐式继承自system.object,所以参数 o 可以接收任意类型的传入参数,在函数中再根据不同的传入参数类型进行不同的处理,这在不清楚传入参数类型的情况下是非常有用的。当然,这段代码的用途显而易见,大家一看就能明白,可是如果结合上面所讲的值传递与引用传递的原理,细心的同学可能会发现一个不合理的地方。
不合理的地方在于:函数的参数类型为object,system.object 归根结底是一个引用类型,按道理说在传递参数时赋值传递的应该是保存在堆内存中对象的引用,但是在这里我们看到的是函数参数o竟然接收的是一个值类型!再回想前面值传递的原理,值类型在赋值时会复制一个副本赋值传递给值类型参数,而这里的函数参数o又不是值类型的参数,总之,这个地方很诡异!那么,在这里的值类型数据传参赋值给引用类型参数的背后,是谁在作祟??
答案是,clr在这里进行了装箱(box)操作。
装箱可以正式定义为:显示地将值类型分配给 system.object 变量的过程。当我们对一个值进行装箱时,clr就会在堆内存中分配新的对象并且将值类型的值(这里是 5)复制到那个实例上。因此,返回给我们的就是新分配在堆上的对象的引用,这个返回的引用被赋值给了 函数func 的 参数o。使用这项技术,就不需要使用一组包装类来把栈数据临时当成分配在堆上的对象进行处理。
相反的操作可以通过拆箱(unbox)来实现。拆箱就是把保存在对象中的值转换回栈上的相应值类型。clr首先会验证收到的值类型是否等价于装箱的类型,如果是,就将值赋值回本地栈变量上;如果尝试将数据拆箱为不正确的变量,将抛出 invalidcastexception 异常。也就是说,拆箱必须回到合适的数据类型。
当c#编译器发现装箱/拆箱语法时,所生成的cil代码包括 box/unbox 操作码。如下所示:
.method private hidebysig static void main (string[] args) cil managed { .maxstack 1 .entrypoint .locals init ( [0] int32 ) il_0000: nop il_0001: ldc.i4.5 il_0002: stloc.0 il_0003: ldloc.0 il_0004: box [mscorlib]system.int32 il_0009: call void boxing.box::func(object) il_000e: nop il_000f: ret }
.method private hidebysig static void func (object o) cil managed { .maxstack 1 .locals init ( [0] int32 ) il_0000: nop il_0001: ldarg.0 il_0002: unbox.any [mscorlib]system.int32 il_0007: stloc.0 il_0008: ret }
看到这有人会说:好吧,装箱拆箱我懂了,可是这个东西......知道当然更好,不知道好像也没什么影响,毕竟这一切操作都是clr在背后自动完成的,不需要我们自己做什么。其实不然,知道了装(拆)箱,对实际的编程还是具有一定指导意义的,可以看一下下面这个例子。
在.net平台最初发布时,程序员常常使用 mscorlib.dll 中的system.collections 命名空间。该命名空间提供了很多类来管理和组织大量的数据。常用的集合类包括 arraylist、hashtable、queue、stack ...... 在当时很多.net程序都使用这些集合类来构建,但是事实证明使用这些类型会造成相当多的问题。
arraylist类的部分定义如下:
1 public class arraylist : ilist, icollection, ienumerable, icloneable 2 { 3 ... 4 public virtual int add(object value); 5 public virtual void remove(object obj); 6 public virtual void insert(int index, object value); 7 public virtual object this[int index] { get; set; } 8 }
通过上面这段arraylist类的部分方法成员我们发现:
1、arraylist在操作增删改查数据的过程中是类型不安全的,不管传入的数据是什么类型,最后通过索引取出来的数据都是由object类来接收,所以这就要求你事先必须知道你存进这个数据的时候它是什么类型的,当强制转换时如果错判了类型则会引发异常。
2、第二个问题则是关于性能方面的,当在使用arraylist类进行add操作时,如果传入的数据类型为值类型,那么就会发生 装箱 ,相应地在使用索引取出操作时,为了获取原数据类型的数据便于操作,又必须进行 拆箱 操作,我们同时要意识到的是arraylist这个类本来就是为了管理和组织大量的数据,重点在于“大量”,如果只是个别的值类型数据进行装(拆)箱,那倒也还好,但是在使用arraylist处理大量的值类型数据时,那么你就不得不注意程序的性能了,毕竟 装(拆)箱 过程要消耗的资源可不小。
当然,问题总会被解决的,如果你现在需要集合类来帮助你管理和组织大量的数据,那么你的首选当然是 泛型集合 咯。
最后自己在这立个flag! 由于自己现在处于毕业的第一份工作中,其实自己对来到的这家公司并不是很满意,原因是这家公司不是一家纯互联网公司,但岗位是web开发,平常的工作就是配合产线解决问题之类,很少开发,维护工作居多。刚来3个多月,但是看到这里用的技术我懵逼了,什么朝代了还在用webform?对自己的未来感到深深的担忧,自己的技术生涯何去何从。。。所以,不能堕落,要努力学习,为不远的将来出坑做好准备。于是,我打算从现在起每周至少写一篇技术博客,一个是为了促进自己不断学习的步伐;再一个就是希望能多总结多交流,从中获益。相信技术能带给我想要的一切!加油。