欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  后端开发

php中文分词源码遇到的小疑点

程序员文章站 2022-06-05 23:10:49
...
php中文分词源码遇到的小问题
本帖最后由 zhuzhaodan 于 2014-03-20 22:26:08 编辑
define('_SP_', chr(0xFF).chr(0xFE)); 
define('UCS2', 'ucs-2be');

这2个常量定义的作用是什么?_SP_定义成chr(0xFF).chr(0xFE)是什么意思,我在ascii对照表内根本找不到FF,FE这2个对应的编码啊?
后面的代码如下
        //载入副词典
$hw = '';
$ds = file($dicAddon);//17行的txt格式字典文件
foreach($ds as $d)
{
$d = trim($d);
if($d=='') continue;
$estr = substr($d, 1, 1);
if( $estr==':' ) {
$hw = substr($d, 0, 1);
}
else
{
$spstr = _SP_;
$spstr = iconv(UCS2, 'utf-8', $spstr);//怎么会出现ucs2编码?咋回事
$ws = explode(',', $d);//每一行的汉字,用中间的逗号分成数组
$wall = iconv('utf-8', UCS2, join($spstr, $ws));//用_SP_又组合成了字符串??,然后又转换成了ucs2?
$ws = explode(_SP_, $wall);//又接着分割成数组?啥意思啊!!!
foreach($ws as $estr)
{
$this->addonDic[$hw][$estr] = strlen($estr);
}
}
}


这段代码,就是载入字典文件,可是我没明白ELSE代码的逻辑?谁能简单说说
------解决方案--------------------
BOM 是编码类型声明,把 _SP_ 解释为 BOM 是为了帮助理解
你不是”在ascii对照表内根本找不到FF,FE这2个对应的编码“
再看
define('_SP_', chr(0xFF).chr(0xFE)); 
define('UCS2', 'ucs-2be');
$spstr = _SP_;
$spstr = iconv(UCS2, 'utf-8', $spstr);
echo bin2hex($spstr);
得到 efbfbe
这是 utf-8 的 BOM

至于他为什么要这样做,你看看字典文件就知道是怎么回事了
php中文分词源码遇到的小疑点

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn核实处理。

相关文章

相关视频


网友评论

文明上网理性发言,请遵守 新闻评论服务协议

我要评论
  • php中文分词源码遇到的小疑点
  • 专题推荐