C/C++ 的编译和链接
c/c++文件
c/c++程序文件包括 .h .c .hpp .cpp,其中源文件(.c .cpp)是基本的编译单元,头文件(.h .hpp)不会被编译器编译。
c/c++项目构建(build)过程,分为以下几个步骤 预处理 → 编译 → 链接。
预编译
预编译的过程可以理解为编译器(实际上是预处理器,这里统称为编译器就可以了)在正式编译之前处理c/c++文件中的预处理命令,即#开头的代码。
常用的几个预处理命令如下:
#include ......
#ifdef ...... #else......#endif
#define ......
#pragma ......
举个例子,下面是个很简单的类定义:
myclass.h
#define default_value 0 class myclass { public: void fun(); public: int value = default_value; };
myclass.cpp
#include "myclass.h" void myclass::fun() { // do someting return; }
预编译完成后的样子:
class myclass { public: void fun(); public: int value = 0; }; void myclass::fun() { // do someting return; }
可以看到编译器把.h文件替换到了.cpp文件中的#include 位置上,把default_value定义的值也替换到了相应的位置。
编译
预编译之后,编译器会编译每个源文件(.c .cpp),如果编译成功,会生成对应的目标文件,linux为.o文件,windows平台下为.obj文件。
以linux平台为例,上面的myclass.cpp编译完成后会生成myclass.o文件
使用objdump可以看到目标文件myclass.o的内容
$$ objdump -x myclass.o ...... 0000000000000000 g f .text 0000000000000015 _zn7myclass3funev ......
编译器会把myclass::fun()的名字改成_zn7myclass3funev,这个过程叫mangle,由于c++支持重载,覆盖等特性,所以编译器必须把函数用一个唯一的标识表示。这个字符串就是编译器生成的唯一标识。
这里还要单独说一下头文件,头文件的既然不是编译单元,那么它的作用是什么?
头文件就是负责”声明“,编译器在编译myclass.cpp的时候,对于myclass这个类以及fun()这个成员函数,编译器必须找到它的声明,这个函数才能被正确编译。
如果有其他cpp需要使用myclass这个类的时候,也需要它的的声明。例如
main.cpp
#include "myclass.h" int main(int argc, char** argv) { myclass tmp; tmp.fun(); return 0; }
加上#include "myclass.h" 编译器在编译main.cpp的时候才知道怎么编译myclass这个类。myclass.h里声明是不会真正被编译到main.o中,.h文件中的内容在目标文件中只是以列表的形式存在,这个表在后面链接时会用到。
当然,头文件不仅可以用来声明,还可以定义(定义全局变量,全局函数等),在头文件中的定义要小心,可能会引起链接错误。
链接
链接就是将一堆目标文件加静态库文件装配成可执行文件的过程。(或者是装配成静态/动态库的过程)
上面两个cpp分别被编译成了myclass.o, 和main.o,我们要生成可执行程序的话,就必须经过链接的过程,把两个目标文件合成一个可执行文件。
main.o中,main函数会构造myclass, 并且调用fun()函数,那么main就根据myclass.h生成的表,找到myclass.o中的函数,这个就是链接器要做的工作。
常见错误
构建c/c++工程的时候,最常见的就是两种错误:
-- 编译错误,在编译过程中产生的错误,通常是语法错误,没有声明,重复声明导致编译目标文件错误
其中没有声明通常是由于没有#include相应的头文件,或者头文件缺少相应的声明。
而重复声明通常是#include了相同的头文件,比如 b.h 和 c.h 都包含 a.h,然后 main.h 包含了 b.h 和 c.h,这就导致a.h 在main中被包含了两次。
解决这个问题的方法是可以在所有.h文件的第一行加上
#pragma once
或者,使用#ifndef ... #define ... #endif 语句块
#ifndef newclass_h #define newclass_h ...... #endif /* newclass_h */
-- 链接错误,常见的错误也是两种,没有定义和重复定义,和上面的没有声明,重复声明类似。(这里定义指的就是函数实现)
- 先讨论没有定义(undefined reference to xxx)
通常是因为函数有声明,而且被使用了,但是没有被定义。比如上面myclass.cpp中,如果fun()没有被实现的话,myclass.cpp和main.cpp编译时都不会报错,但是链接时会报告找不到fun()。
当然,如果fun()没被main.cpp调用的话,即使不实现它,整个构建过程也不会出错,因为链接器根本不会去找这个函数的定义。
- 然后是重复定义(multiple definition)
指的一份相同的定义在两个目标文件中都存在,链接的时候链接器不知道时用哪个了。这种问题通常由于全局函数,和全局变量定义在了头文件中。导致多个目标文件包含相同的全局函数和全局变量的定义。
解决方法就是在头文件中声明,定义放到cpp文件中,或者为定义加上const 或 static这样的修饰符,链接时会对这些带有const和修饰符的变量特殊处理的。
const只适用于定义常量变量,static定义的是静态全局变量,只在当前cpp有效,所以链接它也不会被别的目标文件链接,就不会有重复定义的问题了。
总之在头文件中定义变量和函数要特别主意,可能会导致链接错误。
当然也不是所有定义都不能放到头文件中,比如刚才说的const常量,static全局变量就是例外,还有内联函数,可以定义在.h文件中,因为内联函数会被拷贝到每个目标文件中,也不会参与链接的过程。
还有模板类必须放在头文件中定义,这个下面会讨论这个。
关于模板,静态成员变量
模板类模板函数必须声明和定义在头文件中,原因是什么,举个例子,假设myclass是模板类
myclass.h
template <typename t> class myclass { public: void fun(); public: t value; };
myclass.cpp
#include "myclass.h" template <typename t> void myclass<t>::fun() { // do someting return; }
main.cpp
int main(int argc, char** argv) { myclass<int> tmp; tmp.fun(); return 0; }
编译的时候没有问题,但是链接时会报错,main.cpp找不到myclass<int>::fun(),如下图
myclass虽然定义了fun函数,但是myclass.o中存在myclass<t>::fun(),而根据myclass.h文件,main.o中需要找到myclass<int>::fun()的定义
结果链接器哪都找不到,只好报错了。(实际上通过objdump查看myclass.o,编译器都没有生成myclass<t>::fun(),因为编译器认为这个函数没人使用,就直接优化掉了)
如果非得在cpp中定义模板类的成员函数呢,有一种方法就是要显示的在cpp文件中声明,比如
myclass.cpp
#include "myclass.h" template <typename t> void myclass<t>::fun() { // do someting return; } template void myclass<int>::fun();
加上下面这行就不会有问题了,但是缺点就是开发myclass的程序员无从知道其他类是怎么使用这个模板的,不可能把所有可能的模板参数全都一一的列在这里。
所以模板类的定义还是要写在.h文件中,
那么如果main.cpp使用到了myclass<int>, 另外一个cpp也使用到了myclass<int>,会不会产生重复代码导致重复定义呢,不会,编译器会处理好模板类的。
下面是静态成员变量,为什么静态成员变量的定义要放在cpp里,(模板类的静态成员变量除外)
静态成员变量和静态全局成员变量不同。
静态成员变量的作用域可以是整个工程,而静态全局变量的作用域只是当前的cpp。所以静态成员变量定义在.h中就会发生重定义错误。