分享mysql中文全文搜索：中文分词简单函数

程序员文章站 2022-06-07 17:44:08

...

分享mysql中文全文搜索：中文分词简单函数
原文地址：http://www.jb100.net/html/content-22-400-1.html
前段时间研究中文全文搜索，结果发现mysql不支持中文的全文搜索。但是有一些解决办法，就是手动把中文单词用空格分开，然后搜索的时候加上 in boolean mode。但是这就带来一个问题，就是中文分词。这个是个很大的难题，貌似中科院有个小组就是专门做中文分词技术的。我们用 php来分词的话，要实现真正语义上的分词是非常困难的，就算实现了效率也不高。一般情况下，我们采用的是如下方法分词：

比如我们有一句话：你好我是刘春龙
那么我们可以这样来分词：你好好我我是是刘刘春春龙

这样虽然看起来有点傻，但是实际应用起来确实可行，因为我们搜索时候输入的关键词也是按照这个方法分词。

下面有个我自己写的函数，可以实现这种分词。传入三个参数，分别是：

1.需要分词的字符串，必须，英文，标点，数字，汉字，日语等都可以。编码为UTF-8
2.是否返回字符串，可选，默认是。如果传入false，那么将返回一个数组。
3.是否base64_encode中文，可选，默认是。Mysql的全文搜索有个配置是 ft_min_word_len 这个值一般是4，而我们分成的中文词语是两个字，就不会被mysql认为是一个词。而base64_encode过后，词语的长度为8，就不存在最小长度问题了。 base64_encode过后数据量会增大 50%。

注意，这里输入和输出的字符串编码都是UTF-8

function string2words($s,$return_string = true,$encode64 = true) 

{ 

        $re = ''; 

        //匹配汉字 

        if (preg_match_all("/([x{4e00}-x{9fff}]{2,})/u",$s,$ms)) 

        { 

                foreach($ms[0] as $w) 

                { 

                        //关键部分：分词 

                        $l = strlen($w)/3; 

                        for($i=0;$i
                        { 

                                $wi = substr($w,$i*3,6); 

                                if (strlen($wi) > 3) 

                                { 

                                        $re .= ($encode64)?' '.str_replace(',','@',base64_encode($wi)):' '.$wi; 

                                } 

                        } 

                } 

        } 

        //匹配数字 

        if (preg_match_all("/(d+[.]?d+)/",$s,$ms)) 

        { 

                foreach($ms[0] as $wi) 

                { 

                        if(strlen($wi) >= 2) 

                        { 

                                $re .= ($encode64)?' '.str_replace(',','@',base64_encode($wi)):' '.$wi; 

                        } 

                } 

                $s = preg_replace("/(d+[.]?d+)/",' ',$s); 

        } 

        //去掉所有双字节字符 

        $s = preg_replace("/([^x{00}-x{ff}]+)/u",' ',$s); 

        $re = $s.' '.$re; 

        if (!$return_string) 

        { 

                $re = preg_replace("/([^d])([,.-?n])([^d])/",'$1 $3',$re); 

                $re = trim(preg_replace("/[s]{2,}/",' ',$re)); 

                $arr = explode(' ',$re); 

                $re = array(); 

                foreach($arr as $a) 

                { 

                        if (strlen($a) >= 2) $re[] = $a; 

                } 

                return $re; 

        } 

        else 

        { 

                $re = trim(preg_replace("/[s,.]{2,}/",' ',$re)); 

                return $re; 

        } 

}

原文地址：http://www.jb100.net/html/content-22-400-1.html

AD：真正免费，域名+虚机+企业邮箱=0元

上一篇： ora-12154:tns:无法解析指定的连接标识符

下一篇：用PHP连MySQL和Oracle数据库性能比较

分享mysql中文全文搜索：中文分词简单函数

PHP中文分词的简单实现代码分享

php 中文分词全文搜索引擎 xunsearch 实例

站内搜索引擎初探：haystack全文检索，whoosh搜索引擎，jieba中文分词

实现一个简单的mysql带权重的中文全文搜索

MySQL5.7 建立全文索引（中文分词）

mysql全文索引（中文分词）

MySQL全文索引、支持中文分词

mysql不支持中文全文索引，你在建站中是怎么解决全文搜索的？

mysql不支持中文全文索引，你在建站中是如何解决全文搜索的

mysql的中文全文搜索实践（二）

分享mysql中文全文搜索：中文分词简单函数

PHP中文分词的简单实现代码分享

php 中文分词 全文搜索引擎 xunsearch 实例

站内搜索引擎初探：haystack全文检索，whoosh搜索引擎，jieba中文分词

实现一个简单的mysql带权重的中文全文搜索

MySQL5.7 建立全文索引（中文分词）

mysql全文索引（中文分词）

MySQL全文索引、支持中文分词

mysql不支持中文全文索引，你在建站中是怎么解决全文搜索的？

mysql不支持中文全文索引，你在建站中是如何解决全文搜索的

mysql的中文全文搜索实践（二）

php 中文分词全文搜索引擎 xunsearch 实例