欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  后端开发

php中截取单个中文

程序员文章站 2022-04-18 20:21:06
...
1、怎样将php中出现的中文字符一个一个截取出来,有没有不用mb_substr的方法。
2、比如我写一个统计文件中(单个文件超过100万字)中文各字符出现次数的,java中用charAt方法即可遍历字符,程序写下来也就几秒,但是在php中用mb_库十分慢,等了好几分钟都没有结果。
3、附java实现的代码 java实现统计字符出现次数

回复内容:

1、怎样将php中出现的中文字符一个一个截取出来,有没有不用mb_substr的方法。
2、比如我写一个统计文件中(单个文件超过100万字)中文各字符出现次数的,java中用charAt方法即可遍历字符,程序写下来也就几秒,但是在php中用mb_库十分慢,等了好几分钟都没有结果。
3、附java实现的代码 java实现统计字符出现次数

经测试,我的代码应该是没有问题的,请指正:

     $str = file_get_contents("hong.txt");
     preg_match_all("/./u", $str, $arr);
     $store = [];
     foreach($arr[0] as $value){
         if(array_key_exists($value, $store)){
             $store[$value]++;
         }else{
             $store[$value] = 1;
         }   
     }   
     asort($store);
     var_dump($store);

此段代码在php7环境下对红楼梦进行操作(148万字),总耗时0.464s。

中文字符串分隔

 0) {
        if (ord(substr($tempaddtext, $cind, 1)) 

试试这个

其实楼上的思路也没问题,但是代码效率不太好。我这个测试了一下,貌似有的字符识别不正常,还需要完善,只是给个思路而以。

这里有字符串截取、分割的终极解决方案。
点这里,点这里

用拓展理论上是最有效的方案,php代码能实现的一般都是正则来实现,在效率上是比不上拓展的。如果觉得慢回顾下算法。

相关标签: php