《深入理解java虚拟机》三 类文件结构
一、无关性的基石
实现语言无关性的基础仍然是虚拟机和字节码储存格式。java虚拟机不和包括java在内的任何语言绑定,它只与"Class文件"这种特定的二进制文件格式所关联,Class文件中包含了java虚拟机指令集和符号表以及若干其他辅助信息。
二、class类文件的结构
Class文件是一组以8位字节为基础单位的二进制流,各个数据项目严格按照顺序紧凑地排列在Class文件之中,中间没有添加任何分隔符,这使得整个Class文件中存储的内容几乎全是程序运行的必要数据,没有空隙存在。当遇到需要占用8位字节以上空间的数据项时,则会按照高位在前的方式分割成若干个8位字节进行存储。
Class文件格式采用一种伪结构来存储数据,这种伪结构中只有两种数据类型:无符号数和表。
无符号数属于基本的数据类型,以u1、u2、u3、u4、u8来分别代表1个字节、2个字节、4个字节、8个字节的无符号数,无符号数可以用来描述数字、索引引用、数量值或者按照UTF-8编码构成字符串值。
表是由多个无符号数或者其他表作为数据项构成的符合数据类型,所有表都习惯性地以"_info"结尾。整个Class文件本质上就是一张表,如下表所示
(1)魔数与Class文件的版本
每个Class文件的头4个字节称为魔数,它的唯一作用是确定这个文件是否为一个能被虚拟机接受的Class文件。文件格式的制定者可以*地选择魔数值,只要这个魔数值还没有被广泛采用过同时又不会引起混淆即可。Class文件的魔数值为"0xCAFEBABE"。
紧接着魔数的4个字节存储的是Class文件的版本号:第5和第6个字节是次版本号,第7和第8个字节是主版本号。高版本的JDK能向下兼容以前版本的Class文件,但不能运行以后版本的Class文件,即使文件格式并未发生任何变化,虚拟机也必须拒绝执行超过其版本号的Class文件。
(2)常量池
紧接着主次版本号之后的是常量池入口,常量池也可以理解为Class文件之中的资源仓库,它是Class文件结构中与其他项目关联最多的数据类型,也是占用Class文件空间最大的数据项目之一,同时它还是在Class文件中第一个出现的表类型数据项目。
由于常量池中常量的数量是不确定的,所以在常量池的入口需要放置一项u2类型的数据,代表常量池容量计数值。这个容量计数是从1而不是0开始的,在Class文件格式规范制定之时,设计者将第0项常量空出来是有特殊考虑的,这样做的目的在于满足某些指向常量池的索引值的数据在特定情况下需要表达"不引用任何一个常量池项目"的含义,这种情况就可以把索引值置为0来表示。
常量池中主要存放两大类变量:字面量和符号引用。字面量包括文本字符串、声明为final的常量值等。而符号引用则包括下面三类变量:
- 类和接口的全限定名
- 字段的名称和描述符
- 方法的名称和描述符
在Class文件中不会保存各个方法、字段的最终内存布局信息,而是在虚拟机加载Class文件的时候进行动态连接。当虚拟机运行时,需要从常量池获得对应符号引用,再在类创建时或运行时解析、翻译到具体的内存地址之中。
常量池中每一项常量都是一个表,这14种表都有一个共同的特点,就是表开始的第一位是一个u1类型的标志位,代表当前这个常量属于哪种常量类型。这14种常量类型所代表的具体含义如下:
package jvm.chp3;
/**
* @author chengzhengda
* @version 1.0
* @date 2020-01-02 15:48
* @desc
*/
public class TestClass {
private int m;
public int inc() {
return m + 1;
}
}
以上代码的字节码如下:
其中,cafe babe 为魔数值,0000为次版本号,0034为主版本号,第一个常量的标志位为0x0a,查表可以发现这个常量属于CONSTANT_InterfaceMethodref_info类型,此类型的常量代表接口中方法的符号引用。
(3) 访问标志
在常量池结束之后,紧接着的两个字节代表访问标志,这个标志用于识别一些类或者接口层次的访问信息,包括:这个Class是类还是接口,是否定义为public类型,是否定义为abstract类型,如果是类的话,是否被声明为final等。具体的标志位以及标志的含义见下表:
(4)类索引、父类索引与接口索引集合
类索引和父类索引都是一个u2类型的数据,而接口索引集合是一组u2类型的数据的集合,Class文件中由着三项数据来确定这个类的继承关系。类索引用于确定这个类的全限定名,父类索引用于确定这个类的父类的全限定名。除了java.lang.Object外,所有Java类的父类索引都不为0。接口索引集合就用描述这个类实现了哪些接口,这些被实现的接口将按implements语句后的接口顺序从左到右在接口索引集合中。
(5)字段表集合
字段表用于描述接口或者类中声明的变量,字段包括类级变量以及实例级变量,但不包含在方法内部声明的局部变量。
(6)方法表集合
(7)属性表集合