[C] 自定义类型专项(结构体、联合体、枚举)
结构体
结构体
(struct)是由一系列具有相同类型、或不同类型的结构体成员构成的数据集合。
结构体类型的声明
struct tag{
member-list;
}variable-list;
- 要使用结构体,
struct
关键字一定不能省,除非通过重定义类型typedef
可以做到省略。 -
tag
意为结构体标签,是不同结构体个性化的一个标志,一般结构体都会使用。后面会讲到一种匿名结构体
,会对该项进行省略。 -
member-list
是成员列表,结构体成员集合可以具有相同类型,也可以不同类型,视情况而定。 -
variable-list
是结构体变量列表,在主函数之外定义结构体创建的变量生命周期为全局,即为全局变量。
也可以在某些函数中定义,来创建局部的结构体变量。 - 结构体的定义和函数的定义不同,在定义的最后要加上分号
;
,一定不可省略。
例如描述一个学生:
struct Stu{
char name[20]; //名字
int gender; //年龄
char sex[5]; //性别
char no[20]; //学号
};//分号不能丢
特殊的声明
如下这种不完全的声明(匿名结构体)也是合法的:
struct{ //没有tag标签
int a;
char b;
float c;
}x;
struct{
int a;
char b;
float c;
}*p,a[8];
需要注意的是,虽然上面两个结构体都省略的结构体标签,但两者是完全不同的两种类型。所以例如p = &x;
的语句就是不合法的,因为虽然参数类型相同,但是二者仍然是两种不同的匿名结构体,类型不同。
C语言支持匿名结构体,但是实际应用中其适用范围非常局限,所以项目中出现的次数也非常少,仅供读者知晓。
【扩展】同为有“匿名“”二字的名称,匿名函数的使用就非常广泛了。
匿名函数,也称为lambda
表达式。没有函数名,只有函数体,最大的作用就是作为回调函数使用。但是C语言不支持匿名函数,C++
支持。
以下列举一个C++
中最简单的一个lambda
表达式:[](){}
[]
表示接下来这段程序是一个lambda
表达式。()
表示参数列表,此时为空,不传参数。{}
表示函数体,函数体为空,也没有返回值。
结构的自引用
结构体的自引用意为结构体成员引用自身结构体。
struct Student{
char name[20];
int score;
struct Student s;
};
此时就无法编译通过,错误原因为:不完整的结构体类型。
说明结构体定义过程中不可以直接使用结构体自身作为结构体成员。此时进行sizeof
操作也无法正常计算出占空内存大小。在求完前两个成员大小后第三个成员的大小无法求正确求得,因为此时这个结构体还没有定义完成,大小未知,有一种无限迭代的感觉。
但是可以通过结构体指针来引用。
struct Student{
char name[20];
int score;
struct Student *s; //结构体指针
};
使用结构体指针再对结构体进行sizeof
操作就可以正确求得了,因为指针变量大小在此操作系统中的大小是固定的。
- Q:为什么要设置结构体自引用?
- A :在数据结构中链表的使用中作用很大。
不连续内存空间的链表就依赖包含自身的结构体,跳转到下一个元素就需要有一个指向下一个元素的地址的指针来完成链表。这也就要求结构体内部包含一个相同类型的结构体指针。
结构体变量初始化
int main(){
struct Student s = {"a",90,NULL}; //结构体变量的定义
s = {"b",80,NULL}; //结构体变量的赋值
}
程序无法正常运行,因为结构体变量的赋值不是像上面直接变量赋值的,而是通过结构体成员访问来修改结构体变量的。
结构体内存对齐
在数据成员完成各自对齐之后,结构本身也要进行对齐,对齐将按照
#pragma pack
指定的数值和结构最大数据成员长度中,比较小的那个进行。
请看代码一:
struct Student {
int a;
int b;
int c;
};
int main() {
struct Student stu;
printf("stu = %p\n", &stu);
printf("stu.a = %p\n", &stu.a);
printf("stu.b = %p\n", &stu.b);
printf("stu.c = %p\n", &stu.c);
printf("%lu\n", sizeof(stu));
return 0;
}
运行结果:
- 从图中我们可以看到,第一个成员在与结构体变量偏移量为0的地址处,第一个成员的地址和结构体变量的地址是一致的。所以结构体成员占用内存空间的相对位置和代码中结构体变量的定义写法也是密切相关的。
- 三个成员类型都为
int
,在此操作系统上每个整形变量都为4
个字节,图中a
,b
,c
变量都间隔4
个字节,相当于一个int
类型变量。 - 最后的结构体占存大小为
12
,3×4=12
,所以此代码没有什么问题。
代码二:
//对代码一中结构体变量类型进行修改,主函数不变
struct Student {
char a; //定义为char类型
int b;
int c;
};
运行结果:
按照正常逻辑不应该是char
类型的a
变量只占存1
字节吗?如下图中红色方框所示空间,而之后的变量就紧接红色区域开始占存?其实不然,变量a
区域中除了红色区域的其他内存没有存放内容。
说明结构体所占内存大小的不是简单的成员类型占存之和,而是存在一定规则影响了内存布局,这个现象就叫做内存对齐。
- 【内存对齐规则】:
- 结构体第一个成员在与结构体变量偏移量为0的地址处
- 其他成员变量要对齐到某个数字(对齐数)的整数倍的地址处。如果不能整除,就需要补齐若干个字节。
对齐数 = (1.编译器默认的一个对齐数 与 2.该成员大小)二者中的较小值。VS
中默认的值为8
Linux
中的默认值为4
。 - 结构体总大小为最大对齐数(每个成员变量都有一个对齐数)的整数倍。
- 如果嵌套了结构体的情况,嵌套的结构体对齐到自己的最大对齐数的整数倍处,结构体的整体大小就是所有最大对齐数(含嵌套结构体的对齐数)的整数倍。
为什么要进行内存对齐?
- 平台原因(移植原因): 不是所有的硬件平台都能访问任意地址上的任意数据的;某些硬件平台只能在某些地址处取某些特定类型的数据,否则抛出硬件异常。
- 性能原因: 数据结构(尤其是栈)应该尽可能地在自然边界上对齐。 原因在于,为了访问未对齐的内存,处理器需要作两次内存访问;而对齐的内存访问仅需要一次访问。
由此可见:结构体的内存对齐是用空间来换取时间的做法。
修改默认对齐数
通过预处理指令#pragma
进行修改:
#pragma pack(8) //设置默认对齐数为 8
#pragma pack() //取消设置的默认对齐数,还原为默认
如果在程序首部进行#pragma pack(1)
将对齐数设置为1
,那么前面代码二的结果就变成了9 = 1+4+4
。
所以为了平台可移植性,建议大家在程序开头显式设置默认对齐数。这样程序在任何平台上运行对齐规则都是相同的。
结构体传参
- 传值,形参是实参的一份拷贝,函数传参的时候,参数是需要压栈的。 如果传递一个结构体对象时结构体过大,参数压栈的的系统开销比较大,所以会导致性能的下降。
- 传指针,传递的参数只占
4
或8
个字节,相对于传值的方式而言非常高效,首选。
缺点是不适用于不希望修改结构体内容的情况,以及必要的合法性校验。
3.传引用,
C++
中支持,此方法就略去了合法性校验,同时降低传参开销,是优于结构体传指针的方法。
结构体传值 / 传指针示例:
struct S
{
int data[1000];
int num;
};
//结构体传参
void print1(struct S s){
printf("%d\n",s.num);
}
//结构体地址传参
void print2(struct S *ps){
printf("%d\n",ps->num);
}
int main(){
print1(s); //传结构体
print2(&s); //传结构体地址
return 0;
}
位段
C
语言允许在一个结构体中以位
为单位来指定其成员所占内存长度,这种以位为单位的成员称为位段
。
struct A{
//四个位段类型变量
int _a:2; //a变量占存 2个位
int _b:5; //a变量占存 5个位
int _c:10;
int _d:30;
};
- 位段的成员可以是
int unsigned
、int signed
、int
或者是char
(整型家族)类型。 - 位段的空间上是按照需要以
4
个字节(int
)或者1
个字节(char
)的方式来开辟的。 - 位段涉及很多不确定因素,是不跨平台的,注重可移植的程序应该避免使用位段。
位段的应用:ip协议的协议报头
需要用位
来表示信息时,就适合使用位段,非常节约内存空间。
枚举
枚举顾名思义就是一一列举,把可能的取值一一列举。
在这里提到了枚举常量,在
C
语言中只可以勉强归属于自定义类型,更像是一种特定的类型。而在C++
中才算是真正的自定制类型。
比如我们现实生活中:
一周的星期一到星期日是有限的7天,可以一一列举。
性别有:男、女、保密,可以一一列举。
月份有12个月,可以一一列举
颜色也可以一一列举。
enum Day{ //星期
Mon,
Tues,
Wed,
Thur,
Fri,
Sat,
Sun
};
enum Sex{ //性别
MALE,
FEMALE,
SECRET
};
enum Color{ //颜色
RED,
GREEN,
BLUE
};
以上定义的都是枚举类型,{}
内是枚举类型可能的取值,也叫枚举常量。
枚举常量默认从0
开始,一次递增1
个单位,同时可以在定义时赋初值:
enum Color{
red = 1,
green = -1, //负数合法
blue = 1.34 //浮点数不合法
};
C
语言默认把枚举常量按照整型
来存储的。
例如可以在主函数中进行printf("%d\n",red);
操作,程序可以正确运行,并输出0
。再进行printf("%d\n",red+1);
操作,也会输出1
,很明显和一个int
类型变量的使用完全相同。
【注】:不同的枚举变量允许为同一个数值。
枚举的优点
- 增加代码的可读性和可维护性
- 和
#define
定义的标识符比较枚举有类型检查,更加严谨。 - 使用方便,一次可以定义多个常量
- 便于调试
- 防止了命名污染(封装)
联合体
联合体类型定义的变量也包含一系列的成员,特征是这些成员共用同一块空间(所以联合也叫共用体)。
联合类型的声明
union Un{
char c;
int i;
};
联合变量的定义
union Un u;
联合变量的成员访问
u.a = 10;
我们通过观察联合体的声明、定义及成员访问方法,发现它的使用好像和结构体非常相似,接下来探究二者的区别:
union Un{ //定义一个联合体
char a;
int b;
};
struct S{ //定义一个结构体
char a;
int b;
};
int main() {
union Un u;
struct S s;
printf("%lu\n", sizeof(u));
printf("%lu\n", sizeof(s));
return 0;
}
输出结果为4
和8
,说明联合体貌似和结构体的内存对齐规则不太一致。
那么具体内存中是如何储存的呢?如图:
-
如图
上
半区域是为结构体成员a
与b
的内存布局,两者之间的3
个字节空间为了内存对齐填充的空白。 -
如图
下
半区域是为联合体成员a
与b
的内存布局,两者之共同了同一块内存空间。此时这两个字段相互影响,不是结构体成员间相互独立的关系。
因为成员影响的特性,联合体的使用相对于结构体就少见了很多,但会在一些特定的场景下使用,例如1. 判定机器字节序:
- 之前的方法是通过强制类型转换验证大小端字节序
int Little(){
int a = 0x11223344;
char *b = (char*)&a;
if(*b == 0x11){
return 0;
}
return 1;
}
- 现在可以使用联合体来验证字节序
int little(){
union Un{
char a;
int b;
}u;
u.b = 0x11223344;
if(u.a == 0x11){
return 0;
}
return 1;
}
那么对联合体大小的计算规则:
- 联合的大小至少是最大成员的大小。
- 当最大成员大小不是最大对齐数的整数倍的时候,就要对齐到最大对齐数的整数倍。
举例:
union Un1{
char c[5];
int i;
};
union Un2{
short c[7];
int i;
};
分别对两个联合体进行sizeof
操作,返回值为8
和16
。
Un1
:先找到占存最大成员为char
类型数组c[5]
,占存5
个字节。此时不是最大对齐数,而是int
类型成员的对齐数4
,能够容纳下5
个字节并且是最大对齐数4
的倍数的值为8
,所以占存大小为8
。
Un2
:先找到占存最大成员为short
类型数组c[7]
,占存14 = 2×7
个字节。此时int
类型成员的对齐数4
为最大对齐数,能够容纳下14
个字节并且是最大对齐数4
的倍数的值为16
,所以占存大小为16
。
此外联合体还有一个特别重要的使用场景:2. IP地址的转换:
【注】IP地址的表示方式:
-
点分十进制
:
例如192.168.1.1
,用4个十进制数表示一个IP
地址,每个数最大范围为255
,也就是一个char
类型数据表示的范围。这样点分出的四个数就是4
个字节中每个字节所表示的内容。 -
uint32_t
的表示方式:IP
协议中源/目的IP
地址都为32
位,折合相当于4
个字节,用一个32
位机器上的int
类型就可以表示。
int main() {
union IP {
uint32_t a;
struct { //匿名结构体
char d1;
char d2;
char d3;
char d4;
}b;
}ip; //此时联合体的两个成员字段占存相等,都为4字节
ip.a = 0x1; //输入数字
printf("%d.%d.%d.%d\n", ip.b.d1, ip.b.d2, ip.b.d3, ip.b.d4);
//转换输出对应的IP地址
return 0;
}