如何选择中文分词
程序员文章站
2022-07-12 15:10:54
...
目前全文搜索用到的中文分词,大都是开源和自己开发
相应的算法很多,到底选哪个来写,各有各的看法。
我分享下我做过的供大家参考
没用过词性的中文分词,因为我的业务用不到。
用过的大部分开源的中文分词,主要是基于字典对纯数字,纯英文,纯中文,混合进行比对,效率看字典好坏,其字典设计,内存使用,比对次数,扫描文章次数等。
适合没有明确搜索关键词的全文搜索,其目标是搜索到。
缺点:由于字典和算法,实现后的中文分词形成的索引大小差异比较大,很难衡量其准确性
写过一个分词,基本就是基于产品型号字典的比对。
特点:索引速度快,索引小。因为字典和业务挂钩很容易检查其准确性。
缺点:只能基于业务。
中文分词可以很简单,网上找个开源的来用,也可以可以很复杂,自己写,比如不同类型的字典所需信息整理搜集。大量字典情况下,内存的使用,如何更快,准确切分是比较复杂的。
选择中文分词到底是找个开源的用,还是找个算法来写,或者是自己按照业务来写,主要基于
1:项目进度:时间
2:自己写的把握:项目第一是稳,而不是快
3:业务需要
4:公司愿意的投入:人力,物力,财力
5:大家补充
相应的算法很多,到底选哪个来写,各有各的看法。
我分享下我做过的供大家参考
没用过词性的中文分词,因为我的业务用不到。
用过的大部分开源的中文分词,主要是基于字典对纯数字,纯英文,纯中文,混合进行比对,效率看字典好坏,其字典设计,内存使用,比对次数,扫描文章次数等。
适合没有明确搜索关键词的全文搜索,其目标是搜索到。
缺点:由于字典和算法,实现后的中文分词形成的索引大小差异比较大,很难衡量其准确性
写过一个分词,基本就是基于产品型号字典的比对。
特点:索引速度快,索引小。因为字典和业务挂钩很容易检查其准确性。
缺点:只能基于业务。
中文分词可以很简单,网上找个开源的来用,也可以可以很复杂,自己写,比如不同类型的字典所需信息整理搜集。大量字典情况下,内存的使用,如何更快,准确切分是比较复杂的。
选择中文分词到底是找个开源的用,还是找个算法来写,或者是自己按照业务来写,主要基于
1:项目进度:时间
2:自己写的把握:项目第一是稳,而不是快
3:业务需要
4:公司愿意的投入:人力,物力,财力
5:大家补充
推荐阅读
-
IKanalyzer、ansj_seg、jcseg三种中文分词器的实战较量
-
安装MySQL时如何选择安装软件包_MySQL
-
特点各不同 如何选择有线宽带接入方案
-
javascript - 如何解决 header("WWW-Authenticate: Basic realm='你好'")弹框中中文乱码的问题?
-
access 如何解决组合框无法满足大量数据的选择问题?
-
MySQL学习笔记_如何选择合适的存储引擎_MySQL
-
Python2.7 中文字符编码,使用Unicode时,选择什么编码格式?
-
php建表的时候如何给中文字段加上连接校对
-
如何正确统计中文字数?_PHP教程
-
MYSQL如何选择正确的数据列类型_MySQL