欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

庖丁中文分词示例应用paoding.net已上线使用 .netlucene算法Hadoop多线程 

程序员文章站 2024-01-21 15:23:58
...
地址:http://paoding.net

这是庖丁中文分词的示例应用。使用的分词器版本是2.0.4-alpha2。
有关心庖丁中文分词的同学,可以通过访问http://paoding.net测试庖丁的搜索效果。

(2.0.4-alpha2发布时间是2007-10-22日)。

----------------------------------------------------------
索引范围:
新浪博客,2007-9-27日统计的点击率最前的1000名博客地址。
paoding建立了这1000个用户从其创建博客到2007-9-26日的所有文章,以及部分博客的9月27日的文章

----------------------------------------------------------
重要数据摘要:
博客数: 1000
博客文章数: >30万篇
Lucene索引库个数: 1个
索引库状态: 已优化
索引库大小: 3.03G
操作系统: REHL4
查询效率: 没有不良体验