iOS中自带超强中文分词器的实现方法

程序员文章站 2023-12-19 17:55:28

说明在处理文本的时候，第一步往往是将字符串进行分词，得到一个个关键词。苹果从很早就开始支持中文分词了，而且我们几乎人人每天都会用到，回想一下，在使用手机时，长按一段文字...

说明

在处理文本的时候，第一步往往是将字符串进行分词，得到一个个关键词。苹果从很早就开始支持中文分词了，而且我们几乎人人每天都会用到，回想一下，在使用手机时，长按一段文字，往往会选中按住位置的一个词语，这里就是一个分词的绝佳用例，而ios自带的分词效果非常棒，大家可以自己平常注意观察一下，基本对中文也有很好的效果。而这个功能也开放了api供开发者调用，我试用了一下，很好用！

效果如下：

iOS中自带超强中文分词器的实现方法

实现

其实苹果给出了完整的api，想要全面了解的可以直接看文档：cfstringtokenizer reference

这里说说简单的一个实现：

 // 要分词的字符串
 nsstring *string = @"侠士隐锋，莽夫露刃";

 self.keywords = [[nsmutablearray alloc] init];
 cfstringtokenizerref ref = cfstringtokenizercreate(null, (__bridge cfstringref)string, cfrangemake(0, string.length), kcfstringtokenizerunitword, null);// 创建分词器
 cfrange range;// 当前分词的位置
 // 获取第一个分词的范围
 cfstringtokenizeradvancetonexttoken(ref);
 range = cfstringtokenizergetcurrenttokenrange(ref);

 // 循环遍历获取所有分词并记录到数组中
 nsstring *keyword;
 while (range.length>0) {
  keyword = [string substringwithrange:nsmakerange(range.location, range.length)];
  [self.keywords addobject:keyword];
  cfstringtokenizeradvancetonexttoken(ref);
  range = cfstringtokenizergetcurrenttokenrange(ref);
 }

其实逻辑很简单：创建分词器–>一个个地一次获取分词后的每个词的起始位置和长度，从而取出词。

示例里我用列表显示每个分词，比较清楚，列表的实现就不说明了，可以直接看工程代码。

值得一提的是，其分词速度很快，甚至一些网络词汇比如“木有”，一些成语等等都能够识别出，能看出这是分词的什么吗：

iOS中自带超强中文分词器的实现方法