linux内核相关-c字符数组底层处理
C语言中字符串结束符’\0’
本质
‘\0’就是8位的00000000,因为字符类型中并没有对应的这个字符,所以这么写。’\0’就是 字符串结束标志。
'\0’是转义字符,意思是告诉编译器,这不是字符0,而是空字符。空字符\0对应的二进制为00000000,而数字0为00110000
原来,在C语言中没有专门的字符串变量,通常用一个字符数组来存放一个字符串。字符串总是以’\0’作为串的结束符。因此当把一个字符串存入一个数组时,也把结束符 ‘\0’存入数组,并以此作为该字符串是否结束的标志。有了’\0’标志后,就不必再用字符数组的长度来判断字符串的长度了。
说明
把一个字符串赋值给数组:u8 str1[]={“zhangqiong”};
实际上数组str1在内存中的实际存放情况为:
z h a n g q i o n g ‘\0’
这后面的’\0’是由C编译系统自动加上的。所以在用字符串赋初值时一般无须指定数组的长度, 而由系统自行处理。
把字符数组str1中的字符串拷贝到字符数组str2中。串结束标志’\0’也一同拷贝。
个案
-
当数组长度不够。假设我们指定了数组长度,如:u8 str1[13]={“cxjr.21ic.org”};
由于字符组str1的长度为13,所以后面的信息会丢失,即’\0’丢失。 -
如果在给数组赋值时,把每个字符单独用引号括起来。也会丢失’\0’。如:
u8 str1[]={‘c’,‘x’,‘j’,‘r’,’.’,‘2’,‘1’,‘i’,‘c’,’.’,‘o’,‘r’,‘g’};
如果希望数组以’\0’结束,则可以写成以下三者之一:
u8 str1[]={“cxjr.21ic.org”}; //字符串赋值
u8 str1[]={‘c’,‘x’,‘j’,‘r’,’.’,‘2’,‘1’,‘i’,‘c’,’.’,‘o’,‘r’,‘g’,’\0’}; //人工添加
u8 str1[14]={‘c’,‘x’,‘j’,‘r’,’.’,‘2’,‘1’,‘i’,‘c’,’.’,‘o’,‘r’,‘g’}; //故意给数组预留一个空位
字符数组并不要求它的最后一个字符为’\0’,甚至可以不包含’\0’。 例如char c[5]={‘a’,‘b’,‘c’,‘d’,‘e’};也是合法的,但是用printf("%s",c),输出数组时会出错。 “%s"格式符对字符串输出时,遇结束符’\0’就停止输出。 而在前面这个字符数组中并没有结束符’\0’,所以输完abcde还会继续输出一些未知的东西。 这种情况是能用”%c"输出格式循环输出每个字符。
下面对 "%s"的源码处理进行解析,看printf是如何遇到结束符\0就停止的:
int printf(const char *fmt, ...)
{
int i;
char buf[256];
va_list arg = (va_list)((char*)(&fmt) + 4);
i = vsprintf(buf, fmt, arg);
write(buf, i);
return i;
}
int vsprintf(char *buf, const char *fmt, va_list args)
{
char* p;
char tmp[256];
va_list p_next_arg = args;
for (p = buf; *fmt; fmt++)
{
if (*fmt != '%')
{
*p++ = *fmt;
continue;
}
fmt++;
switch (*fmt)
{
case 'x':
itoa(tmp, *((int*)p_next_arg));
strcpy(p, tmp);
p_next_arg += 4;
p += strlen(tmp);
break;
case 's':
break;
default:
break;
}
}
return (p - buf);
}
其实看看printf中后面的一句:write(buf, i);你也该猜出来了。
write,顾名思义:写操作,把buf中的i个元素的值写到终端。
所以说:vsprintf的作用就是格式化。它接受确定输出格式的格式字符串fmt。用格式字符串对个数变化的参数进行格式化,产生格式化输出。
我代码中的vsprintf只实现了对16进制的格式化。
你只要明白vsprintf的功能是什么,就会很容易弄懂上面的代码。
下面的write(buf, i);的实现就有点复杂了
追踪下write:
write:
mov eax, _NR_write
mov ebx, [esp + 4]
mov ecx, [esp + 8]
int INT_VECTOR_SYS_CALL
一个int INT_VECTOR_SYS_CALL表示要通过系统来调用sys_call这个函数
再来看看sys_call的实现:
sys_call:
call save
push dword [p_proc_ready]
sti
push ecx
push ebx
call [sys_call_table + eax * 4]
add esp, 4 * 3
mov [esi + EAXREG - P_STACKBASE], eax
cli
ret
一个call save,是为了保存中断前进程的状态。
太复杂了,如果详细的讲,设计到的东西实在太多了。
我只在乎我所在乎的东西。sys_call实现很麻烦,我们不妨不分析funny os这个操作系统了。
先假设这个sys_call就一单纯的小女孩。她只有实现一个功能:显示格式化了的字符串。
这样,如果只是理解printf的实现的话,我们完全可以这样写sys_call:
sys_call:
;ecx中是要打印出的元素个数
;ebx中的是要打印的buf字符数组中的第一个元素
;这个函数的功能就是不断的打印出字符,直到遇到:'\0'
;[gs:edi]对应的是0x80000h:0采用直接写显存的方法显示字符串
xor si,si
mov ah,0Fh
mov al,[ebx+si]
cmp al,'\0'
je .end
mov [gs:edi],ax
inc si
loop:
sys_call
.end:
ret
上一篇: jQuery显示和隐藏动画
推荐阅读