关于一些中文分词器分词器

程序员文章站 2022-05-17 12:35:45

...

    找了一些,列出来,备忘.部分内容来自http://lihaiyan.iteye.com/blog/127674

    1 计算所汉语词法分析系统 ICTCLAS
    中国科学院计算技术研究所在多年研究基础上，耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)，该系统的功能有：中文分词；词性标注；未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果)，基于角色标注的未登录词识别能取得高于90%召回率，其中中国人名的识别召回率接近98%，分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道，国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。

下载页面： http://www.nlp.org.cn/project/project.php?proj_id=6

由于 ICTCLAS 是由 C 语言写成的，现在主流的开发工具用起来不太方便，于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。

（1）fenci，Java 的 ICTCLAS，下载页面： http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502

（2）AutoSplit，另一个 Java 的 ICTCLAS，已经找不到下载页面，点击本地下载

（3）小叮咚中文分词，曾经有下载页面，现在找不到了。据作者介绍，从 ICTCLAS 中改进，有 Java，C# 和 C++ 三个版本，介绍页面： http://www.donews.net/accesine

    2 海量智能分词研究版

    海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果，共同提高中文信息处理水平，特此发布《海量智能分词研究版》，供专家、学者和爱好者进行研究。

下载页面： http://www.hylanda.com/cgi-bin/download/download.asp?id=8

    3 CSW中文智能分词组件

    运行环境：Windows NT、2000、XP 或更高，可以在 ASP，VB 等微软的开发语言中调用。

简介: CSW中文智能分词DLL组件，可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔，且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。

下载页面： http://www.vgoogle.net/

    4 C# 写的中文分词组件

据作者介绍，一个 DLL 文件，可以做中英文分词组件。完全C#托管代码编写，独立开发。

下载页面： http://www.rainsts.net/article.asp?id=48

    5 (C) scws-1.0.0 正式发布 (含php扩展及2文本词典) http://www.hightman.cn/

    6 MMSeg Java开源实现http://www.solol.org/projects/mmseg/

    7 小麻雀搜索引擎http://www.sqlet.com/

    8 (C#) 开源 ShootSearch 分词组件 1.0 bate 070312 (支持dotlucene)http://www.shootsoft.net/home/show.aspx?id=38&cid=8

    9 (Java) Paoding Analysis(庖丁解牛)http://code.google.com/p/paoding/

    10 (Java) lucene开源中文分词器 IKAnalyzer2.0.2 共享及源码发布http://linliangyi2007.iteye.com/blog/165287

    11 (ruby) RMMSeg 作者,一些介绍
根据作者自己博客上面的测试，中文分词的准确率可以达到98%以上.应该是MMSEG的Ruby实现.

    12 (C) MMSEGhttp://technology.chtsai.org/mmseg/

    13 (C++)FirteX 是一个功能强大、高性能、灵活的全文索引和检索平台http://www.firtex.org/

    其他:
    搜索引擎资料收集(转)http://wind-bell.iteye.com/blog/81504
    几个免费的中文分词模块http://lihaiyan.iteye.com/blog/127674
    开源研究,中文分词http://www.j-kanban.com/bbs/thread-1806-1-1.html

关于一些中文分词器分词器

关于TP3.2框架读取Sql server中文字段数据以及处理乱码的一些小心得

ek插件------ik中文分词器的使用

ElasticSearch学习 - （八）安装中文分词器IK和拼音分词器

白话Elasticsearch28-IK中文分词器的安装和使用

Elasticsearch7.5配置IK中文分词器+拼音分词

solr配置中文分词器 IK分词器

elasticSearch~中文分词器安装及使用

Elasticsearch分词器介绍、内置分词器及配置中文分词器

lucene 中文分词器

OrientDB使用Lucene的全文索引,并且使用中文分词器

关于一些中文分词器 分词器

关于TP3.2框架读取Sql server中文字段数据以及处理乱码的一些小心得

ek插件------ik中文分词器的使用

ElasticSearch学习 - （八）安装中文分词器IK和拼音分词器

白话Elasticsearch28-IK中文分词器的安装和使用

Elasticsearch7.5配置IK中文分词器+拼音分词

solr配置中文分词器 IK分词器

elasticSearch~中文分词器安装及使用

Elasticsearch分词器介绍、内置分词器及配置中文分词器

lucene 中文分词器

OrientDB使用Lucene的全文索引,并且使用中文分词器

关于一些中文分词器分词器