知识巩固源码落实之6:c语言拼接字符串与切割字符串(strsep)代码
网络数据是以流的形式进行传输的(我们在构造客户端/服务端待发送数据时,肯定有特定的格式)。
关于发送一次,一个包的完整性可靠接收(tcp的可靠传输,以及取数据的半包粘包问题)这里不关注,可以参考上文。
这里的目的是:
===》备份c语言字符处理相关方案
===》备份自己在业务实现时,对字符串切割实现的一个接口(strstr,strcasestr,strsep,strtok,strdup相关接口)
有如下几个细节可以关注:
===》1:实现不同类型的数据拼接字符串的方案 (3.1)
===》2:char**通过传参的方式再函数内部进行构造 (3.2.4.2)
===》3:对字符串进行解析处理的几种方案,尤其是分割字符串的实现(strsep实现了demo)(3.2.4)
1:背景描述
网络传输过程中,如tcp的客户端可服务端进行通信时,send函数实际发送的数据是用字符数组+长度表示的,即流的形式。
有关一次发送,一个包的完整接收,依赖于tcp底层的可靠流式传输,需要进行半包和粘包处理,可以参考上文。
但是,这里针对一个包的结构,我们其实也会需要根据我们的业务场景进行设计,按照特定的结构进行构造,与解析。
这里关注一次发送一个包的构造与解析方案,以及代码实现做备份
2:逻辑描述
2.1:大概描述
网络传输中,对字符流的处理非常重要,建立在我们制定的特定的规范上
===》除了关注一个包的完整接收(粘包半包问题),还需要关注数据本身
===》1:类似tcp/ip协议栈那样,用特定的协议栈,特定的字节表示特定的含义进行解析(固定字节大小表示含义)
===》2:我们可以自定义规范,如用特定的字符/字符串进行识别,分割不同字符所表示的含义(如 msg_type|other_type|msg_len|msg_data).
这里针对以上所描述的两种方案的数据的构造与解析,进行梳理及代码测试。。。
2.2:数据的构造(目的构造特定格式待发送的char*及获取长度)
一般发送端和接收端对数据的处理都是协商好的,按照特定的格式构造,必然会按照特定的格式进行解析。
数据的构造本质:其实就是按照特定的格式给char指针中塞入协商的格式的数据,以及获取到实际发送的数据的长度。
===》1:类似tcp/ip协议头,可以通过结构体指针强转,以及获取实际长度进行发送
===》2:构造要发送的char*指针及获取长度方案:使用 memcpy
===》3:构造要发送的char*指针及获取长度方案:c库函数,strcpy, strcat
===》4:构造要发送的char*指针及获取长度方案:使用sprintf、sprintf_s (觉得最好用)
2.3:数据的解析(目的对接收到的char*按协商的格式进行解析)
以流的形式,接收到对待的数据(实际是char*指针和数据长度),对其按照协商进行解析。
解析的本质:按照特定的字节,或者对整个流进行处理依次取特定位置数据
===》1:指针强转,类似tcp/ip协议栈处理,可以把接收到的报文,直接转为结构体指针进行操作
===》2:先取特定长度,再按这个长度取实际数据。 (发送先发送长度+data(可以自己定义解析格式))
===》3:解析接收到的流,进行解析(如按照“|”进行分割)
本文的目的之一也是为了备份按照“|”进行分割的一个实践代码
3:代码梳理
3.1:待发送数据构造的demo
3.1.1:结构体指针转为char*实现/解析逻辑
构造结构体,计算实际长度,send时直接转为char*传参进行发送。。。
再linux环境上使用gcc进行编译测试过,代码执行ok
//1:类似tcp/ip协议栈,其实都是按照特定的结构体进行类型强转数据解析
void parse_struct_format_data()
{
printf("parse_struct_format_data test: \n");
//假设定义了柔性数组,构造数据并解析数据的流程如下
struct my_data_t
{
int msg_type;
int data_len;
char data[0];
};
//假设要发送的数据为client send data example. \n, 类型为1
const char* data = "client send data example. \n";
//发送端构造最终的数据如下
struct my_data_t *send_data = NULL;
send_data = (struct my_data_t*)malloc(sizeof(struct my_data_t)+strlen(data)+1);
if(send_data == NULL)
{
return ;
}
memset(send_data, '\0', sizeof(struct my_data_t)+strlen(data)+1);//只是预留了一个位而已
send_data->msg_type = 1;
send_data->data_len = strlen(data);
memcpy(send_data->data, data, strlen(data));
//这里其实 send_data就是我们最终构造的一个网络数据格式包,可以进行发送
//使用send进行发送时,只是传参char*以及待发送的数据长度
char *send_para_data = (char *)send_data; //结构体类型强转 tcp识别到的是这个结构里的流数据
int send_para_data_len = sizeof(struct my_data_t)+strlen(data);
//如果客户端使用send_para_data 及长度send_para_data_len 进行发送及校验 。。。
//我们收到的流,以recv进行接收,就是一个字符流,内容其实就是send_para_data 长度为send_para_data_len
//这里要完整的接收到一个包(半包粘包问题,可参考上文)
//进行逆向解析就好
struct my_data_t *recv_data = (struct my_data_t*)send_para_data;
//可以按照柔性数组的逻辑 按照长度对实际数据进行解析打印
printf("\trecv_data type is [%d] \n",recv_data->msg_type);
printf("\trecv_data len is [%d] \n",recv_data->data_len);
//这里只是测试 注意如果这个data中有特殊的字符如\0等,不能这样打印,要按照十六进制按照长度打印
printf("\trecv_data len is [%s] \n", recv_data->data);
printf("recv_data ASSII is [");
for(int i=0; i<recv_data->data_len; i++)
{
printf("%02x ", recv_data->data[i]);
}
printf("]\n");
if(send_data!= NULL)
{
free(send_data);
send_data = NULL;
}
}
3.1.2:使用memcpy实现字符串的拼接,构造char*
目的是获得最终的char*指针位置以及实际发送的数据长度。
这里因为懒,使用了to_string把int转为string进行测试,所以编译的时候用c++11,可以修改用itoa…
//1:使用memcpy实现字符串的拼接 splicing test of string1 and string2
int use_memcpy_splic_string()
{
printf("use_memcpy_splic_string test:\n");
const char* str1 = "splicing test of ";
const char* str2 = "string";
const char* and1 = " and ";
int one = 1;
int two = 2;
//这里用到了C++中的to_string函数 c语言可以用itoa,这里主要是理解字符串拼接,,, 有int类型的字符串转换拼接常用sprintf
int size = strlen(str1) + strlen(str2) * 2 + (strlen(to_string(one).c_str())) + strlen(and1) + (strlen(to_string(two).c_str())) + 1;
printf("\tget the len is : %d %lu\n", size, strlen("splicing test of string1 and string2"));
int pos = 0;
char* result = (char*)malloc(size);
if (result == NULL)
{
return -1;
}
memset(result, '\0', size);
memcpy(result, str1, strlen(str1));
pos += strlen(str1);
memcpy(result + pos, str2, strlen(str2));
pos += strlen(str2);
memcpy(result + pos, to_string(one).c_str(), strlen(to_string(one).c_str()));
pos += strlen(to_string(one).c_str());
memcpy(result + pos, and1, strlen(and1));
pos += strlen(and1);
memcpy(result + pos, str2, strlen(str2));
pos += strlen(str2);
memcpy(result + pos, to_string(two).c_str(), strlen(to_string(two).c_str()));
pos += strlen(to_string(two).c_str());
printf("\tthe result is [%lu][%s] \n", strlen(result), result);
printf("\tpos is [%d] \n", pos);
if (result != NULL)
{
free(result);
result = NULL;
}
return 0;
}
3.1.3:使用c库函数(strcpy, strcat)
偷懒用了to_string(),编译测试用c++11
//2:使用c库函数实现字符串的拼接 splicing test of string1 and string2
//写代码的时候要注意目标字符串的长度一定要够用
int use_clibrary_strcat_splic_string()
{
printf("use_clibrary_strcat test: \n");
const char* str1 = "splicing test of ";
const char* str2 = "string";
const char* and1 = " and ";
int one = 1;
int two = 2;
//这里用到了C++中的to_string函数 c语言可以用itoa,这里主要是理解字符串拼接,,, 有int类型的字符串转换拼接常用sprintf
int size = strlen(str1) + strlen(str2) * 2 + (strlen(to_string(one).c_str())) + strlen(and1) + (strlen(to_string(two).c_str())) + 1;
printf("\tget the len is : %d %lu\n", size, strlen("splicing test of string1 and string2"));
char* result = (char*)malloc(size);
if (result == NULL)
{
return -1;
}
memset(result, '\0', size);
//vs上测试时要用strcpy_s
// strcpy_s(result, size, str1);
// strcat_s(result, size, str2);
// strcat_s(result, size, to_string(one).c_str());
// strcat_s(result, size, and1);
// strcat_s(result, size, str2);
// strcat_s(result, size, to_string(two).c_str());
//注意字符串处理时的不安全性!!!
strcpy(result, str1);
strcat(result, str2);
strcat(result, to_string(one).c_str());
strcat(result, and1);
strcat(result, str2);
strcat(result, to_string(two).c_str());
printf("\tthe result is [%lu][%s] \n", strlen(result), result);
if (result != NULL)
{
free(result);
result = NULL;
}
return 0;
}
3.1.4:使用sprintf(sprintf_s):最实用和方便
vs上测试时需要使用sprintf_s
int use_sprintf_splic_string()
{
printf("use_sprintf_splic_string test: \n");
const char* str1 = "splicing test of ";
const char* str2 = "string";
const char* and1 = " and ";
int one = 1;
int two = 2;
//定义目标字符串,为其申请内存都是必须的
int size = strlen(str1) + strlen(str2) * 2 + (strlen(to_string(one).c_str())) + strlen(and1) + (strlen(to_string(two).c_str())) + 1;
printf("\tget the len is : %d %lu\n", size, strlen("splicing test of string1 and string2"));
char* result = (char*)malloc(size);
if (result == NULL)
{
return -1;
}
memset(result, '\0', size);
//使用sprintf一步到位
sprintf(result, "%s%s%d%s%s%d", str1, str2, one, and1, str2, two);
//sprintf_s(result, size, "%s%s%d%s%s%d", str1, str2, one, and1, str2, two);
printf("\tthe result is [%lu][%s] \n", strlen(result), result);
if (result != NULL)
{
free(result);
result = NULL;
}
return 0;
}
3.2:接收数据进行解析的demo
3.2.1:直接把char*转为结构体(类似tcp/ip协议栈处理)
参考3.1.1
3.2.2:按照协商的自己含义,使用memcpy按字节处理
参考3.1.2
3.2.3:先接收长度,再接收数据的解析
网络数据有个场景,可以先发送实际数据的长度,recv时先接收特定字节长度,再接收实际数据,保证报的完整.
//2:特定字节表示长度,对后面的数据进行处理==》其实和结构体格式差不多,柔性数组
void parse_len_and_data_networkdata()
{
printf("parse_len_and_data_networkdata test: \n");
//在网络传输中,可以用特定字节表示长度+实际数据的格式
const char *send_data = "msg_type | msg_len |msg_data ...\n"; //实际数据有特殊字符的话,长度要传进来或者结构体其他方案
//在网络发送中,如果想简单实现不想用结构那么麻烦,可以这样用
int send_len = strlen(send_data);
printf("\tsend_len [%d][%s] \n",send_len, send_data);
//可以类似上个函数用结构体 struct data_t{int len; char data[0];};构造
//我试试这种:
char * real_send_data = (char *)malloc(send_len +4+1);
memset(real_send_data, 0, send_len +4+1);
memcpy(real_send_data, (char*)&send_len, sizeof(int)); //前四个字节拷贝长度,也可以以字符串形式直接存进去 to_string(send_len).c_str()
memcpy(real_send_data +sizeof(int), send_data, send_len);
//real_send_data 就是我们实际send的流 我们可以先接收取前四个字节获取数据长度,再接收后面的字段
//先定义一个int,从recv取四个字节,转为int表示的长度
int recv_len = *(int *)real_send_data; //先recv取四个字节 解析成真正的数据
char* recv_data = real_send_data+4; //这里应该是recv读出来的 长度为recv_len
printf("\trecv_len[%d] [%s] \n",recv_len, recv_data);
if(real_send_data != NULL)
{
free(real_send_data);
real_send_data = NULL;
}
}
3.2.4:如果是按字符串进行分割的设计,对其进行解析
这里只是实现了切割字符串的其中一种方案。
3.2.4.1:数据的构造(符合”|“切割的字符串:”msg_type|other_type|msg_len|msg_data“):
//模拟一个完整的包,返回一个符合特定格式的拼接起来的包数据
//假设 msg_type|other_type|msg_len|msg_data 格式
int get_concatenate_strings(char ** result_data, int* len)
{
// 假设格式msg_type|other_type|msg_len|msg_data 格式
const char * data = "mytest of spilt of send data ... \n\t test";//注意网络数据这里的复杂,用memcpy处理
int msg_type = 1;
int other_type = 2;
int msg_len = strlen(data); //实际后面的数据长度
//这里估算一下最终最大长度 用20+strlen(data)肯定够用
char *send_data = NULL;
send_data = (char*)malloc(20+msg_len);
memset(send_data, 0, 20+msg_len);
sprintf(send_data, "%d|%d|%d|", msg_type, other_type, msg_len);
//通过传参的方式传递出去
*len = strlen(send_data) +msg_len;
memcpy(send_data+strlen(send_data), data, msg_len);
*result_data = send_data;
printf("\t result_data is [%d][%s] \n",*len, send_data);
}
3.2.4.2:按特定字符对字符串实现切割解析(解析提取”msg_type|other_type|msg_len|msg_data“各字段含义)
这里可以关注一下这几个库函数实现字符串切割的方案,测试只是其中一种
char * strstr(const char *haystack, const char *needle); 函数定位子串的位置,然后实现字符串的切割
char * strcasestr(const char *haystack, const char *needle); 和strstr同样的功能,只是忽略两个参数的大小写
char *strtok(char *str, const char *delim); 分解字符串 str 为一组字符串,delim 为分隔符
char *strsep(char **stringp, const char *delim); strtok的升级,
//这里使用"|"对长度为len目标数据data进行切割,通过参数result返回解析后的数据
int check_recv_data_by_spilit(const char * data, int len, char **result, const char* delim)
{
//直接根据'|'对字符串进行切割 根据切割后的个数进行校验
char *src = strdup(data); //复制了一份数据 strsep会修改原字符串
char * src_free = src;
//msg_type|other_type|msg_len|msg_data 按照协商的格式 定义了暂存的指针
char * delim_buff[4] = {0};
char* token = NULL; //切割后返回的字符指针
int i = 0; //切割的个数
//返回的是符合的分割的字符 同时原字符从分割后的位置开始
for(token = strsep(&src, delim); token!=NULL && i<4; token=strsep(&src, delim))
{
delim_buff[i++] = token;
printf("\tspilt data [%d:%lu:%s] \n", i, strlen(token), token);
printf("\t\t src:[%s] \n",src);
}
if(i != 4) //必然是协商的格式
{
printf("\tvps spilit data error \n");
free(src_free);
return -1;
}
int msg_type = (int)atoi(delim_buff[0]);
int dev_type = (int)atoi(delim_buff[1]);
int data_len = (int)atoi(delim_buff[2]);
char * cli_data = delim_buff[3];
printf("\nmsg_type:%d, dev_type:%d, data_len:%d:%lu:[%s] \n", msg_type, dev_type, data_len, strlen(cli_data), cli_data);
//把解析后的数据进行处理 使用传参传出去
int ret = 0;
struct client_recv_t *result_t = NULL;
result_t = (struct client_recv_t *)malloc(sizeof(struct client_recv_t) + data_len+1);
if(result_t == NULL)
{
printf("malloc error \n");
*result = NULL;
ret = -1;
}else
{
memset(result_t, sizeof(struct client_recv_t) + data_len+1, 0);
result_t->msg_type = msg_type;
result_t->dev_type = dev_type;
result_t->data_len = data_len;
memcpy(result_t->data, cli_data, data_len);
*result = (char *)result_t;
}
memset(src_free, 0, len);
free(src_free);
src_free = NULL;
return ret;
}
3.2.4.2:测试代码:
再linux环境直接用gcc进行编译测试,代码ok。。。
//定义一个保存解析后数据的结构
struct client_recv_t
{
int msg_type;
int dev_type;
int data_len;
char data[0];
};
int parse_spilt_string_and_getdata(const char * data, int len)
{
printf("\tneed parse data is [%d][%s] \n", len, data);
//使用特定字符串对字符串进行切割,这里举例是"|",可以是其他的字符串。。。
//协商的协议是:msg_type|other_type|msg_len|msg_data
//实际数据是:[47][1|2|40|mytest of spilt of send data ... \n\t test
char * result_data_t = NULL; //存储解析后的数据,也可以是其他方案,这里只是举例
//这里使用"|"对长度为len目标数据data进行切割,通过传参获取 result_data_t
if(check_recv_data_by_spilit(data, len, &result_data_t, "|") != 0)
{
printf("vps parse spilit error \n");
return -1;
}
//对解析后的数据进行打印
struct client_recv_t *result_data = (struct client_recv_t *)result_data_t;
printf("\t parse test data is [%d][%d][%d][%s] \n", result_data->msg_type, result_data->dev_type, result_data->data_len, result_data->data);
// memset(result_data, sizeof(struct client_recv_t)+ (result_data->data_len+1), 0);
if(result_data != NULL)
{
free(result_data);
result_data = NULL;
printf("free success \n");
}
return 0;
}
//真正的入口
void parse_string_spilt_data()
{
printf("parse_string_spilt_data test: \n");
//假设协商的协议是msg_type|other_type|msg_len|msg_data
//构造一个数据,获取到最终发送的数据和数据长度
char * send_data = NULL;
int send_len = 0;
if(get_concatenate_strings(&send_data, &send_len) < 0)
{
printf("\t make send_data error \n");
return;
}
printf("\t last_result_data is [%d][%s] \n",send_len, send_data);
//假设对这个数据进行发送了,报的完整性参考上文
//接收其实就是这样格式的数据,解析一下这个 这里recv接收时要关注包的完整性
parse_spilt_string_and_getdata(send_data, send_len);
if(send_data != NULL)
{
free(send_data);
send_data = NULL;
}
}
我开始试着积累一些常用代码:自己代码库中备用
我的知识储备更多来自这里,推荐你了解:Linux,Nginx,ZeroMQ,MySQL,Redis,fastdfs,MongoDB,ZK,流媒体,CDN,P2P,K8S,Docker,TCP/IP,协程,DPDK等技术内容,立即学习
上一篇: WPF 无边框窗体设置