如何转义emoji表情，让它可以存入utf8的数据库？

程序员文章站 2022-05-10 19:59:50

...

unicode emoji是4个字节的，存不进MySQL里，找到一个转义的库http://code.iamcal.com/php/emoji/，但是转为Unicode之后，还是4个字节，一样存不进，应该说根本没转。转为其他格式的emoji又怕以后新增了表情不好做，你们在不改数据库编码的前提下，是怎么弄的？
方法1：base_encode64
这种方法是可以，但是旧数据没有经过encode操作，取数据的时候如果统一进行decode的话，旧数据会丢失的。
方法2：urlencode
个似乎可以，对没有经过encode的数据进行decode也不会有影响，而且多次decode似乎也不会有影响。你们说这个方法有缺陷吗？
方法3：自定义方法
1、那个方法只转换表情，不会转换中文，所以数据还是直接可读的
2、不会把表情转换为其它标准，只有一个简单的，固定的转换算法，也就是说不需要一个表情库来对照着转换，所以以后其它人要使用这个数据的时候，也很容易知道每个表情是对应的哪个。就算苹果大爷又增加了表情，也不需要做什么额外的修改。

3、可以无限decode输出的都是正确的内容。因为有的时候可能需要在一次请求中的两个地方做decode，其它decode多次会把正确的数据改成其它数据，这个不会。

缺点：
1、看了下面的代码就知道，这个是强制修改字符编码中，指定区间内的编码，也就说有可能误杀，也有可能有超出这个区间的emoji没杀到。不过仅仅是在字符前加反斜杠，即使误杀了，发现之后也很容易改回来。
数据库中发现有这样的，是漏杀了，但是不知道为什么，这个可以直接存数据库。

**
  把用户输入的文本转义（主要针对特殊符号和emoji表情）
 */
function userTextEncode($str){
    if(!is_string($str))return $str;
    if(!$str || $str=='undefined')return '';

    $text = json_encode($str); //暴露出unicode
    $text = preg_replace_callback("/(\\\u[ed][0-9a-f]{3})/i",function($str){
        return addslashes($str[0]);
    },$text); //将emoji的unicode留下，其他不动，这里的正则比原答案增加了d，因为我发现我很多emoji实际上是\ud开头的，反而暂时没发现有\ue开头。
    return json_decode($text);
}
/**
  解码上面的转义
 */
function userTextDecode($str){
    $text = json_encode($str); //暴露出unicode
    $text = preg_replace_callback('/\\\\\\\\/i',function($str){
        return '\\';
    },$text); //将两条斜杠变成一条，其他不动
    return json_decode($text);
}