欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

linux内核相关-c字符数组底层处理

程序员文章站 2022-03-07 13:20:42
...

C语言中字符串结束符’\0’

本质

‘\0’就是8位的00000000,因为字符类型中并没有对应的这个字符,所以这么写。’\0’就是 字符串结束标志。

'\0’是转义字符,意思是告诉编译器,这不是字符0,而是空字符。空字符\0对应的二进制为00000000,而数字0为00110000

原来,在C语言中没有专门的字符串变量,通常用一个字符数组来存放一个字符串。字符串总是以’\0’作为串的结束符。因此当把一个字符串存入一个数组时,也把结束符 ‘\0’存入数组,并以此作为该字符串是否结束的标志。有了’\0’标志后,就不必再用字符数组的长度来判断字符串的长度了。

说明

把一个字符串赋值给数组:u8 str1[]={“zhangqiong”};
实际上数组str1在内存中的实际存放情况为:
z h a n g q i o n g ‘\0’
这后面的’\0’是由C编译系统自动加上的。所以在用字符串赋初值时一般无须指定数组的长度, 而由系统自行处理。
把字符数组str1中的字符串拷贝到字符数组str2中。串结束标志’\0’也一同拷贝。

个案

  1. 当数组长度不够。假设我们指定了数组长度,如:u8 str1[13]={“cxjr.21ic.org”};
    由于字符组str1的长度为13,所以后面的信息会丢失,即’\0’丢失。

  2. 如果在给数组赋值时,把每个字符单独用引号括起来。也会丢失’\0’。如:
    u8 str1[]={‘c’,‘x’,‘j’,‘r’,’.’,‘2’,‘1’,‘i’,‘c’,’.’,‘o’,‘r’,‘g’};
    如果希望数组以’\0’结束,则可以写成以下三者之一:

u8 str1[]={“cxjr.21ic.org”}; //字符串赋值
u8 str1[]={‘c’,‘x’,‘j’,‘r’,’.’,‘2’,‘1’,‘i’,‘c’,’.’,‘o’,‘r’,‘g’,’\0’}; //人工添加
u8 str1[14]={‘c’,‘x’,‘j’,‘r’,’.’,‘2’,‘1’,‘i’,‘c’,’.’,‘o’,‘r’,‘g’}; //故意给数组预留一个空位

字符数组并不要求它的最后一个字符为’\0’,甚至可以不包含’\0’。 例如char c[5]={‘a’,‘b’,‘c’,‘d’,‘e’};也是合法的,但是用printf("%s",c),输出数组时会出错。 “%s"格式符对字符串输出时,遇结束符’\0’就停止输出。 而在前面这个字符数组中并没有结束符’\0’,所以输完abcde还会继续输出一些未知的东西。 这种情况是能用”%c"输出格式循环输出每个字符。

下面对 "%s"的源码处理进行解析,看printf是如何遇到结束符\0就停止的:

int printf(const char *fmt, ...)
{
    int i;
    char buf[256];
 
    va_list arg = (va_list)((char*)(&fmt) + 4);
    i = vsprintf(buf, fmt, arg);
    write(buf, i);
 
    return i;
}
 
int vsprintf(char *buf, const char *fmt, va_list args)
{
    char* p;
    char tmp[256];
    va_list p_next_arg = args;
 
    for (p = buf; *fmt; fmt++)
    {
        if (*fmt != '%')
        {
            *p++ = *fmt;
            continue;
        }
 
        fmt++;
 
        switch (*fmt)
        {
            case 'x':
                itoa(tmp, *((int*)p_next_arg));
                strcpy(p, tmp);
                p_next_arg += 4;
                p += strlen(tmp);
                break;
            case 's':
                break;
            default:
                break;
        }
    }
    
    return (p - buf);
}

其实看看printf中后面的一句:write(buf, i);你也该猜出来了。
write,顾名思义:写操作,把buf中的i个元素的值写到终端。

所以说:vsprintf的作用就是格式化。它接受确定输出格式的格式字符串fmt。用格式字符串对个数变化的参数进行格式化,产生格式化输出。
我代码中的vsprintf只实现了对16进制的格式化。
你只要明白vsprintf的功能是什么,就会很容易弄懂上面的代码。

下面的write(buf, i);的实现就有点复杂了
追踪下write:

write: 
    mov eax, _NR_write 
    mov ebx, [esp + 4] 
    mov ecx, [esp + 8] 
int INT_VECTOR_SYS_CALL 

一个int INT_VECTOR_SYS_CALL表示要通过系统来调用sys_call这个函数
再来看看sys_call的实现:

sys_call: 
     call save 
    
     push dword [p_proc_ready] 
    
     sti 
    
     push ecx 
     push ebx 
     call [sys_call_table + eax * 4] 
     add esp, 4 * 3 
    
     mov [esi + EAXREG - P_STACKBASE], eax 
    
     cli 

     ret 

一个call save,是为了保存中断前进程的状态。

太复杂了,如果详细的讲,设计到的东西实在太多了。
我只在乎我所在乎的东西。sys_call实现很麻烦,我们不妨不分析funny os这个操作系统了。
先假设这个sys_call就一单纯的小女孩。她只有实现一个功能:显示格式化了的字符串。

这样,如果只是理解printf的实现的话,我们完全可以这样写sys_call:

sys_call: 
     ;ecx中是要打印出的元素个数 
     ;ebx中的是要打印的buf字符数组中的第一个元素 
     ;这个函数的功能就是不断的打印出字符,直到遇到:'\0' 
     ;[gs:edi]对应的是0x80000h:0采用直接写显存的方法显示字符串 
     xor si,si 
     mov ah,0Fh 
     mov al,[ebx+si] 
     cmp al,'\0' 
     je .end 
     mov [gs:edi],ax 
     inc si 
loop: 
     sys_call 
    
    .end: 
     ret 
相关标签: 内核