linux内核相关-c字符数组底层处理

程序员文章站 2022-03-07 13:20:42

...

C语言中字符串结束符’\0’

本质

‘\0’就是8位的00000000，因为字符类型中并没有对应的这个字符，所以这么写。’\0’就是字符串结束标志。

'\0’是转义字符，意思是告诉编译器，这不是字符0，而是空字符。空字符\0对应的二进制为00000000，而数字0为00110000

原来，在C语言中没有专门的字符串变量，通常用一个字符数组来存放一个字符串。字符串总是以’\0’作为串的结束符。因此当把一个字符串存入一个数组时，也把结束符 ‘\0’存入数组，并以此作为该字符串是否结束的标志。有了’\0’标志后，就不必再用字符数组的长度来判断字符串的长度了。

说明

把一个字符串赋值给数组：u8 str1[]={“zhangqiong”};
实际上数组str1在内存中的实际存放情况为：
z h a n g q i o n g ‘\0’
这后面的’\0’是由C编译系统自动加上的。所以在用字符串赋初值时一般无须指定数组的长度，而由系统自行处理。
把字符数组str1中的字符串拷贝到字符数组str2中。串结束标志’\0’也一同拷贝。

个案

当数组长度不够。假设我们指定了数组长度，如：u8 str1[13]={“cxjr.21ic.org”};
由于字符组str1的长度为13,所以后面的信息会丢失，即’\0’丢失。
如果在给数组赋值时，把每个字符单独用引号括起来。也会丢失’\0’。如：
u8 str1[]={‘c’,‘x’,‘j’,‘r’,’.’,‘2’,‘1’,‘i’,‘c’,’.’,‘o’,‘r’,‘g’};
如果希望数组以’\0’结束，则可以写成以下三者之一：

u8 str1[]={“cxjr.21ic.org”}; //字符串赋值
u8 str1[]={‘c’,‘x’,‘j’,‘r’,’.’,‘2’,‘1’,‘i’,‘c’,’.’,‘o’,‘r’,‘g’，’\0’}; //人工添加
u8 str1[14]={‘c’,‘x’,‘j’,‘r’,’.’,‘2’,‘1’,‘i’,‘c’,’.’,‘o’,‘r’,‘g’}; //故意给数组预留一个空位

字符数组并不要求它的最后一个字符为’\0’，甚至可以不包含’\0’。例如char c[5]={‘a’,‘b’,‘c’,‘d’,‘e’};也是合法的，但是用printf("%s",c)，输出数组时会出错。 “%s"格式符对字符串输出时，遇结束符’\0’就停止输出。而在前面这个字符数组中并没有结束符’\0’,所以输完abcde还会继续输出一些未知的东西。这种情况是能用”%c"输出格式循环输出每个字符。

下面对 "%s"的源码处理进行解析，看printf是如何遇到结束符\0就停止的：

int printf(const char *fmt, ...)
{
    int i;
    char buf[256];
 
    va_list arg = (va_list)((char*)(&fmt) + 4);
    i = vsprintf(buf, fmt, arg);
    write(buf, i);
 
    return i;
}
 
int vsprintf(char *buf, const char *fmt, va_list args)
{
    char* p;
    char tmp[256];
    va_list p_next_arg = args;
 
    for (p = buf; *fmt; fmt++)
    {
        if (*fmt != '%')
        {
            *p++ = *fmt;
            continue;
        }
 
        fmt++;
 
        switch (*fmt)
        {
            case 'x':
                itoa(tmp, *((int*)p_next_arg));
                strcpy(p, tmp);
                p_next_arg += 4;
                p += strlen(tmp);
                break;
            case 's':
                break;
            default:
                break;
        }
    }
    
    return (p - buf);
}

其实看看printf中后面的一句：write(buf, i);你也该猜出来了。
write，顾名思义：写操作，把buf中的i个元素的值写到终端。

所以说：vsprintf的作用就是格式化。它接受确定输出格式的格式字符串fmt。用格式字符串对个数变化的参数进行格式化，产生格式化输出。
我代码中的vsprintf只实现了对16进制的格式化。
你只要明白vsprintf的功能是什么，就会很容易弄懂上面的代码。

下面的write(buf, i);的实现就有点复杂了
追踪下write：

write: 
    mov eax, _NR_write 
    mov ebx, [esp + 4] 
    mov ecx, [esp + 8] 
int INT_VECTOR_SYS_CALL

一个int INT_VECTOR_SYS_CALL表示要通过系统来调用sys_call这个函数
再来看看sys_call的实现：

sys_call: 
     call save 
    
     push dword [p_proc_ready] 
    
     sti 
    
     push ecx 
     push ebx 
     call [sys_call_table + eax * 4] 
     add esp, 4 * 3 
    
     mov [esi + EAXREG - P_STACKBASE], eax 
    
     cli 

     ret

一个call save，是为了保存中断前进程的状态。

太复杂了，如果详细的讲，设计到的东西实在太多了。
我只在乎我所在乎的东西。sys_call实现很麻烦，我们不妨不分析funny os这个操作系统了。
先假设这个sys_call就一单纯的小女孩。她只有实现一个功能：显示格式化了的字符串。

这样，如果只是理解printf的实现的话，我们完全可以这样写sys_call：

sys_call: 
     ;ecx中是要打印出的元素个数 
     ;ebx中的是要打印的buf字符数组中的第一个元素 
     ;这个函数的功能就是不断的打印出字符，直到遇到：'\0' 
     ;[gs:edi]对应的是0x80000h：0采用直接写显存的方法显示字符串 
     xor si,si 
     mov ah,0Fh 
     mov al,[ebx+si] 
     cmp al,'\0' 
     je .end 
     mov [gs:edi],ax 
     inc si 
loop: 
     sys_call 
    
    .end: 
     ret