PHP：preg_replace_callback匹配中文的问题

程序员文章站 2022-04-23 16:48:26

...

代码：

$html = preg_replace_callback("/(?[\x{4e00}-\x{9fa5}]+)/u",array("self","wyc_chinese"),$html);
...
省略
...
public function wyc_chinese($matches)
{       
    return $matches['chinese'].'(Chinese)';
}

问题：
$html为要提取的网页数据
如果$html是utf8编码的，则以上代码能正常执行（即能正常提取中文），但如果是其他编码的，则没法正常执行（无法匹配到汉字）
使用iconv转换$html的编码格式，也无法正常提取中文。

回复内容：

代码：

$html = preg_replace_callback("/(?[\x{4e00}-\x{9fa5}]+)/u",array("self","wyc_chinese"),$html);
...
省略
...
public function wyc_chinese($matches)
{       
    return $matches['chinese'].'(Chinese)';
}

以来识别编码是错误的.有些网页没有写meta,对于现代浏览器也会正常显示的(IE6有问题,IE7,IE8没测~)
应该根据HTTP响应头Content-Type: text/html; charset=UTF-8来判断.如果没有返回charset,就根据内容来自行判断了..
为了方便,最好将html转换为UTF-8来进行正则匹配.

 [
        'method' => 'GET',
    ],
]);
$html = file_get_contents($remote_url, false, $context);

$html_encoding = mb_detect_encoding($html, ['UTF-8', 'CP936', 'ASCII']);

//转换为UTF-8
$target_encoding = 'UTF-8';
$html = $target_encoding === $html_encoding ? $html : mb_convert_encoding($html, $target_encoding, $html_encoding);

//匹配
$count = preg_match_all('#[\x{4e00}-\x{9fa5}]+#u', $html, $matches);

var_dump($matches);

你这问题的核心是网页编码转换成UTF-8

你说源编码是"根据meta标签的charset字段来判断的"

我也是这样子做的, 不过我成功.

你没给出详尽代码,我不知道是你的代码哪里出错了,还是纯粹是我的人品比你好.

require_once(__DIR__.'/wp-config.php');
$resp = wp_remote_get('http://51nb.com/');
$html = $resp['body'];
preg_match('@charset=([-a-z0-9_]+)@i',$html,$charset);
$html = iconv(strtoupper($charset[1]), "UTF-8", $html);
preg_match_all("@\p{Han}+@u",$html,$m);     
echo '';
print_r($m);
exit;

使用以上代码的iconv

PHP：preg_replace_callback匹配中文的问题

不使用以上代码的iconv

PHP：preg_replace_callback匹配中文的问题

PHP：preg_replace_callback匹配中文的问题

回复内容：

PHP 正则匹配h1的数据报错 preg_match(): Unknown modifier 'h' in

php用正则表达式匹配中文实例详解

php foreach循环中使用引用的问题

关于Cookie中带有中文乱码报错的问题解决

分享一段PHP制作的中文拼音首字母工具类

Three.js使用THREE.TextGeometry创建三维文本中文乱码的问题如何解决？

适用于php-5.2 的 php.ini 中文版[金步国翻译]

php表单提交问题的解决方法

PHP setcookie设置Cookie用法(及设置无效的问题)

解决pandas read_csv 读取中文列标题文件报错的问题