php中文分词源码遇到的小疑点

程序员文章站 2022-06-05 23:10:49

...

php中文分词源码遇到的小问题

本帖最后由 zhuzhaodan 于 2014-03-20 22:26:08 编辑

define('_SP_', chr(0xFF).chr(0xFE)); 
define('UCS2', 'ucs-2be');

这2个常量定义的作用是什么？_SP_定义成chr(0xFF).chr(0xFE)是什么意思，我在ascii对照表内根本找不到FF,FE这2个对应的编码啊？
后面的代码如下

        //载入副词典
        $hw = '';
        $ds = file($dicAddon);//17行的txt格式字典文件
        foreach($ds as $d)
        {
            $d = trim($d);
            if($d=='') continue;
            $estr = substr($d, 1, 1);
            if( $estr==':' ) {
                $hw = substr($d, 0, 1);
            }
            else
            {
                $spstr = _SP_;
                $spstr = iconv(UCS2, 'utf-8', $spstr);//怎么会出现ucs2编码？咋回事
                $ws = explode(',', $d);//每一行的汉字，用中间的逗号分成数组
                $wall = iconv('utf-8', UCS2, join($spstr, $ws));//用_SP_又组合成了字符串？？，然后又转换成了ucs2?
                $ws = explode(_SP_, $wall);//又接着分割成数组？啥意思啊！！！
                foreach($ws as $estr)
                {
                    $this->addonDic[$hw][$estr] = strlen($estr);
                }
            }
        }

这段代码，就是载入字典文件，可是我没明白ELSE代码的逻辑？谁能简单说说
------解决方案--------------------
BOM 是编码类型声明，把 _SP_ 解释为 BOM 是为了帮助理解
你不是”在ascii对照表内根本找不到FF,FE这2个对应的编码“
再看

define('_SP_', chr(0xFF).chr(0xFE)); 
define('UCS2', 'ucs-2be');
$spstr = _SP_;
$spstr = iconv(UCS2, 'utf-8', $spstr);
echo bin2hex($spstr);

得到 efbfbe
这是 utf-8 的 BOM

至于他为什么要这样做，你看看字典文件就知道是怎么回事了

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn核实处理。

专题推荐

独孤九贱-php全栈开发教程
全栈 170W+

主讲：Peter-Zhu 轻松幽默、简短易学，非常适合PHP学习入门
玉女心经-web前端开发教程
入门 80W+

主讲：灭绝师太由浅入深、明快简洁，非常适合前端学习入门
天龙八部-实战开发教程
实战 120W+

主讲：西门大官人思路清晰、严谨规范，适合有一定web编程基础学习

上一篇： nginx 不能访问软链接目录?

下一篇： php实现按天数、星期、月份查询的搜索框_PHP

php中文分词源码遇到的小疑点

专题推荐

PHP的 DOMDocument 遇到的小疑点

php中遇到的小疑点（随遇随记）

PHP 正则中遇到的一个小疑点, 卡死,执行慢

php中文分词源码遇到的小疑点

php中文分词源码遇到的小问题

PHP 正则中遇到的一个小疑点, 卡死,执行慢

php中文分词源码遇到的小问题

php中文分词源码遇到的小疑点

专题推荐

PHP的 DOMDocument 遇到的小疑点

php中遇到的小疑点（随遇随记）

PHP 正则 中遇到的一个小疑点, 卡死,执行慢

php中文分词源码遇到的小疑点

php中文分词源码遇到的小问题

PHP 正则 中遇到的一个小疑点, 卡死,执行慢

php中文分词源码遇到的小问题

PHP 正则中遇到的一个小疑点, 卡死,执行慢

PHP 正则中遇到的一个小疑点, 卡死,执行慢