php 一元分词算法实例代码

程序员文章站 2022-04-09 08:13:48

...

一元分词：指语句中每个字都成词，按字切分，不去组合，类似英文单词。UTF8编码下一个字符如果首字符ASCII码不大于192则只占1个字节。如果首字符ASCII码大于192小于224则占用2个字节，否则占用3个字节，一元分词需要在mysql的my.ini文件中增加 ft_min_word_len=1

代码如下:

/** 
* 一元分词算法 
* 可以使用mysql查询语句 show variables like '%ft%' 查看mysql全文搜索相关设置 
* 
* @access global 
* @param string $str 
* @param boolean $unique 是否去除重复值 
* @param boolean $merge 是否合并附加值 
* @return array 
*/ 
function seg_word($str,$unique=false,$merge=true) 
{ 
$str = trim(strip_tags($str)); 
$strlen = strlen($str); 
if($strlen == 0) return array(); 
$spc = ' '; 
//按需增加需要过滤的字符 
$search = array(',', '/', '\\', '.', ';', ':', '\'', '!', '~','"', '`', '^', '(', ')', '?', '-', "\t", "\n", '\'', '<', '>', "\r", "\r\n", '\$', '&', '%', '#', '@', '+', '=', '{', '}', '[', ']', '）', '（', '．', '。', '，', '！', '；', '“', '”', '‘', ''', '［', '］', '、', '—', '　', '《', '》', '－', '…', '【', '】','：'); 
$numpairs = array('1'=>'一','2'=>'二','3'=>'三','4'=>'四','5'=>'五','6'=>'六','7'=>'七','8'=>'八','9'=>'九','0'=>'零'); 
$str = alab_num($str); 
$str = str_replace($search,' ',$str); 
$ord = $i = $k = 0; 
$prechar = 0;// 0-空白 1-英文和符号 2-中文 
$result = array(); 
$annex = array(); 

while($ord = ord($str[$i])) 
{ 
//1字节字符 
if ($ord <= 0xC0 ) 
{ 
//去除空字符串 
if($ord < 33) { 
$prechar=0; 
$i++; 
$k++; 
continue; 
} 
//附加中文大写数字转换 
if(isset($numpairs[$str[$i]])) { 
$annex[]=$numpairs[$str[$i]]; 
} 
//如果前面是中文 
if( $prechar == 2 ){ 
$result[++$k] = $str[$i]; 
} 
else { 
$result[$k] .= $str[$i]; 
} 
$prechar = 1; 
$i++; 
} 
else //2-3字节字符(中文) 
{ 
if($ord < 0xE0) 
$step = 2; 
else 
$step = 3; 
$c = substr($str,$i,$step); 
if(false !== $key = array_search($c,$numpairs)){ 
$annex[] = $key; 
} 
if ($prechar != 0) { 
$result[++$k] = $c; 
} 
else { 
$result[$k] .= $c; 
} 

$prechar = 2; 
$i+=$step; 
} 
} 
$result = $merge ? array_merge($result,$annex) : $result ; 
return $unique ? array_unique($result) : $result ; 
}

以上就是php 一元分词算法实例代码的详细内容，更多请关注其它相关文章！

php 一元分词算法实例代码

PHP微商城开源代码实例

Java使用异或运算实现简单的加密解密算法实例代码

php+ajax 文件上传代码实例

MySQL PHP 语法详解及实例代码

php mysql insert into 结合详解及实例代码

Java编程实现轨迹压缩算法开放窗口实例代码

5种PHP创建数组的实例代码分享

Java编程基于快速排序的三个算法题实例代码

PHP嵌套输出缓冲代码实例

Ajax请求PHP后台接口返回信息的实例代码