正则表达式 - 为什么在正则不加模式修正符的时候，PHP去匹配的中文字符会是乱码的

程序员文章站 2024-02-04 09:49:04

...

正则表达式 - 为什么在正则不加模式修正符的时候，PHP去匹配的中文字符会是乱码的
情况如下：

代码如下：

echo preg_replace('/[\s-]+/', '-', '阿树')."\n";

测试结果如下：

增加模式修正符后正常，如下：

echo preg_replace('/[\s-]+/u', '-', '阿树')."\n";

查找资料，是这么说的：

u（PCRE_UTF8）

此修正符启用了一个 PCRE 中与 Perl 不兼容的额外功能。模式字符串被当成 UTF-8。本修正符在 Unix 下自 PHP 4.1.0 起可用，在 win32 下自 PHP 4.2.3 起可用。自 PHP 4.3.5 起开始检查模式的 UTF-8 合法性。

请问：

回复内容：

正则表达式 - 为什么在正则不加模式修正符的时候，PHP去匹配的中文字符会是乱码的
情况如下：

代码如下：

echo preg_replace('/[\s-]+/', '-', '阿树')."\n";

测试结果如下：

增加模式修正符后正常，如下：

echo preg_replace('/[\s-]+/u', '-', '阿树')."\n";

查找资料，是这么说的：

u（PCRE_UTF8）

此修正符启用了一个 PCRE 中与 Perl 不兼容的额外功能。模式字符串被当成 UTF-8。本修正符在 Unix 下自 PHP 4.1.0 起可用，在 win32 下自 PHP 4.2.3 起可用。自 PHP 4.3.5 起开始检查模式的 UTF-8 合法性。

请问：

树的utf8表示是e6 a0 91。敏感的话看到这里就应该明白了。

第二个字节a0和\n是一样的，从而被替换成了-，剩下左右两边的两个字节变成非法ASCII，显示成问号了，至于平台差异性，估计是所谓PCRE的问题吧，有兴趣可以钻进去查查

相关标签：正则表达式 php 字符编码