关于一些中文分词器 分词器
程序员文章站
2022-05-17 12:35:45
...
找了一些,列出来,备忘.部分内容来自http://lihaiyan.iteye.com/blog/127674
1 计算所汉语词法分析系统 ICTCLAS
中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。
下载页面: http://www.nlp.org.cn/project/project.php?proj_id=6
由于 ICTCLAS 是由 C 语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。
(1)fenci,Java 的 ICTCLAS,下载页面: http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502
(2)AutoSplit,另一个 Java 的 ICTCLAS,已经找不到下载页面,点击本地下载
(3)小叮咚中文分词,曾经有下载页面,现在找不到了。据作者介绍,从 ICTCLAS 中改进,有 Java,C# 和 C++ 三个版本,介绍页面: http://www.donews.net/accesine
2 海量智能分词研究版
海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。
下载页面: http://www.hylanda.com/cgi-bin/download/download.asp?id=8
3 CSW中文智能分词组件
运行环境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微软的开发语言中调用。
简介: CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。
下载页面: http://www.vgoogle.net/
4 C# 写的中文分词组件
据作者介绍,一个 DLL 文件,可以做中英文分词组件。完全C#托管代码编写,独立开发。
下载页面: http://www.rainsts.net/article.asp?id=48
5 (C) scws-1.0.0 正式发布 (含php扩展及2文本词典) http://www.hightman.cn/
6 MMSeg Java开源实现http://www.solol.org/projects/mmseg/
7 小麻雀搜索引擎http://www.sqlet.com/
8 (C#) 开源 ShootSearch 分词组件 1.0 bate 070312 (支持dotlucene)http://www.shootsoft.net/home/show.aspx?id=38&cid=8
9 (Java) Paoding Analysis(庖丁解牛)http://code.google.com/p/paoding/
10 (Java) lucene开源中文分词器 IKAnalyzer2.0.2 共享及源码发布http://linliangyi2007.iteye.com/blog/165287
11 (ruby) RMMSeg 作者,一些介绍
根据作者自己博客上面的测试,中文分词的准确率可以达到98%以上.应该是MMSEG的Ruby实现.
12 (C) MMSEGhttp://technology.chtsai.org/mmseg/
13 (C++)FirteX 是一个功能强大、高性能、灵活的全文索引和检索平台http://www.firtex.org/
其他:
搜索引擎资料收集(转)http://wind-bell.iteye.com/blog/81504
几个免费的中文分词模块http://lihaiyan.iteye.com/blog/127674
开源研究,中文分词http://www.j-kanban.com/bbs/thread-1806-1-1.html
1 计算所汉语词法分析系统 ICTCLAS
中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。
下载页面: http://www.nlp.org.cn/project/project.php?proj_id=6
由于 ICTCLAS 是由 C 语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。
(1)fenci,Java 的 ICTCLAS,下载页面: http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502
(2)AutoSplit,另一个 Java 的 ICTCLAS,已经找不到下载页面,点击本地下载
(3)小叮咚中文分词,曾经有下载页面,现在找不到了。据作者介绍,从 ICTCLAS 中改进,有 Java,C# 和 C++ 三个版本,介绍页面: http://www.donews.net/accesine
2 海量智能分词研究版
海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。
下载页面: http://www.hylanda.com/cgi-bin/download/download.asp?id=8
3 CSW中文智能分词组件
运行环境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微软的开发语言中调用。
简介: CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。
下载页面: http://www.vgoogle.net/
4 C# 写的中文分词组件
据作者介绍,一个 DLL 文件,可以做中英文分词组件。完全C#托管代码编写,独立开发。
下载页面: http://www.rainsts.net/article.asp?id=48
5 (C) scws-1.0.0 正式发布 (含php扩展及2文本词典) http://www.hightman.cn/
6 MMSeg Java开源实现http://www.solol.org/projects/mmseg/
7 小麻雀搜索引擎http://www.sqlet.com/
8 (C#) 开源 ShootSearch 分词组件 1.0 bate 070312 (支持dotlucene)http://www.shootsoft.net/home/show.aspx?id=38&cid=8
9 (Java) Paoding Analysis(庖丁解牛)http://code.google.com/p/paoding/
10 (Java) lucene开源中文分词器 IKAnalyzer2.0.2 共享及源码发布http://linliangyi2007.iteye.com/blog/165287
11 (ruby) RMMSeg 作者,一些介绍
根据作者自己博客上面的测试,中文分词的准确率可以达到98%以上.应该是MMSEG的Ruby实现.
12 (C) MMSEGhttp://technology.chtsai.org/mmseg/
13 (C++)FirteX 是一个功能强大、高性能、灵活的全文索引和检索平台http://www.firtex.org/
其他:
搜索引擎资料收集(转)http://wind-bell.iteye.com/blog/81504
几个免费的中文分词模块http://lihaiyan.iteye.com/blog/127674
开源研究,中文分词http://www.j-kanban.com/bbs/thread-1806-1-1.html