Coreseek 全文检索工具 - 国内开源项目介绍(三)
程序员文章站
2022-03-03 19:29:07
...
项目名称: Coreseek
发起时间: 2007年7月
网站:http://www.coreseek.com
项目介绍:
为应用提供全文检索功能,目前的版本(2.x 3.x)基于Sphinx 0.9.8,支持使用Python定义数据源,支持中文分词。
为您的应用实施全文检索,您可以:
* 帮助用户找到您业务中,目前通过全网搜索找不到的80%的信息;
* 可以保证自己信息的私密性,这在公司组织中尤其重要;
* 降低服务器的运行负载,提高系统响应速度,从而大幅度降低您的运营成本;
* 为您的需求修改检索结果的展现方式,更好的组织数据;
* 帮助您发现用户提交的敏感文档或广告。
产品信息:
开发语言: C/C++/Python
运行平台: Windows / Linux / FreeBSD
开源协议: GPL
项目成员:
李沫南 系统架构师 北京
是什么促使你们发起/开始这个项目?
搜索的技术不单会改变互联网的生态环境,也会改变软件开发与设计的方方面面,而这些方面的需求,google和百度这样的第三方搜索引擎是无法满足的。全文检索,应该是新一代应用系统的标配功能。
该项目面向哪些使用群体?
需要全文检索功能的应用开发者或网站的站长
您认为有多少人使用这个软件/项目/服务?
大约有30个项目和网站在使用这个软件
您在该项目中遇到的最大挑战是什么?
中文切分的歧义的处理与存储,目前仍未真正意义上解决。
例如,连续剧 创世纪 的切分方式 取决于 上下文, 如为圣经上的章节,应为 创世/v 纪/nv ; 如为剧集的名称,应为 创/v 世纪/nz
您对该项目有哪些期望?
希望我的软件运行在中国每个网站的后面,为浏览者提供服务。
如果您能对项目进行修改,您会改善哪些地方?
1、我们目前在设计新的中文粗切分方法,将集成NER与词性标注;如果有机会,将改进切分性能(CUDA maybe)。
2、索引器应该能够接受一句话有多种切分方案,以及多级索引
3、正向索引、文本聚类
你们一般花多长时间在这个项目上?
大约10小时/周
你们用的开发环境是什么
OS: Windows/FreeBSD
IDE: VC 2005 Express/GCC
项目里程碑
07.07 v1.0 支持Python 作为数据源,闭源软件
08.04 v2.0 改为基于Sphinx + LibMMseg ,支持Python数据源 GPL
08.08 v3.0b2 基于Sphinx 0.9.8 支持基于词典
其他人如何给你们提供建议?
论坛 http://www.coreseek.com/forum/
发起时间: 2007年7月
网站:http://www.coreseek.com
项目介绍:
为应用提供全文检索功能,目前的版本(2.x 3.x)基于Sphinx 0.9.8,支持使用Python定义数据源,支持中文分词。
为您的应用实施全文检索,您可以:
* 帮助用户找到您业务中,目前通过全网搜索找不到的80%的信息;
* 可以保证自己信息的私密性,这在公司组织中尤其重要;
* 降低服务器的运行负载,提高系统响应速度,从而大幅度降低您的运营成本;
* 为您的需求修改检索结果的展现方式,更好的组织数据;
* 帮助您发现用户提交的敏感文档或广告。
产品信息:
开发语言: C/C++/Python
运行平台: Windows / Linux / FreeBSD
开源协议: GPL
项目成员:
李沫南 系统架构师 北京
是什么促使你们发起/开始这个项目?
搜索的技术不单会改变互联网的生态环境,也会改变软件开发与设计的方方面面,而这些方面的需求,google和百度这样的第三方搜索引擎是无法满足的。全文检索,应该是新一代应用系统的标配功能。
该项目面向哪些使用群体?
需要全文检索功能的应用开发者或网站的站长
您认为有多少人使用这个软件/项目/服务?
大约有30个项目和网站在使用这个软件
您在该项目中遇到的最大挑战是什么?
中文切分的歧义的处理与存储,目前仍未真正意义上解决。
例如,连续剧 创世纪 的切分方式 取决于 上下文, 如为圣经上的章节,应为 创世/v 纪/nv ; 如为剧集的名称,应为 创/v 世纪/nz
您对该项目有哪些期望?
希望我的软件运行在中国每个网站的后面,为浏览者提供服务。
如果您能对项目进行修改,您会改善哪些地方?
1、我们目前在设计新的中文粗切分方法,将集成NER与词性标注;如果有机会,将改进切分性能(CUDA maybe)。
2、索引器应该能够接受一句话有多种切分方案,以及多级索引
3、正向索引、文本聚类
你们一般花多长时间在这个项目上?
大约10小时/周
你们用的开发环境是什么
OS: Windows/FreeBSD
IDE: VC 2005 Express/GCC
项目里程碑
07.07 v1.0 支持Python 作为数据源,闭源软件
08.04 v2.0 改为基于Sphinx + LibMMseg ,支持Python数据源 GPL
08.08 v3.0b2 基于Sphinx 0.9.8 支持基于词典
其他人如何给你们提供建议?
论坛 http://www.coreseek.com/forum/