C/C++中文字符截断问题解决方案
程序员文章站
2022-03-18 13:41:49
...
设s是一个包含中文的长字符串,现在需要截取其开头的内容作为预览。
由于汉字是用三个char表示,如果直接截取固定长度的substr,最后一个中文字符有可能会被截断,成为一个无法显示的�字符。
所以需要判断字符是不是中文,并且保持汉字一定是按三个字符截取的。
将字符串用%x格式打印出来,可以发现中文的字符的char值都是0xffffffe6这样的,而非中文字符则是0x2e,0x61这样。
所以只需要在一个循环中从开头开始比较字符值,大于0xffffff80(或者大于0x80也行)的值则下标+3,否则下标+1,即可保证汉字始终被完整截取。
注意0xffffff80是一个负数,需要先转为unsigned int再比较大小。
代码如下:
string s = "1234你我他abcde,。,.";
int length = 60;
const char * chs = s.c_str();
int end = 0;
while(end < strlen(chs) && end < length) {
end += ((unsigned int)chs[end] > 0x80) ? 3 : 1;
}
if (end > s.length()) {
end = s.length();
}
return s.substr(0, end);