搜索引擎框架介绍
一、搜索引擎基础介绍
二、常见搜索引擎框架介绍与比较
三、参考文章
一、搜索引擎基础介绍
1. 什么是搜索引擎
搜索引擎,通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后,这些结果将按照与搜索关键词的相关度高低(或与相关度毫无关系),依次排列。
2. 传统的搜索与搜索引擎对比
2.1 传统做法
(1)文档中使用系统的find查找
(2)mysql中使用like模糊查询
存在问题:
(1)海量数据中不能及时响应,少量数据可以通过传统的mysql建立索引解决
(2)一些无用词不能进行过滤,没法分词
(3)数据量大的话难以拓展
(4)相同的数据难以进行相似度最高的进行排序
2.2 搜索引擎做法
(1)存储非结构化的数据
(2)快速检索和响应我们需要的信息,快-准
(3)进行相关性的排序,过滤等
(4)可以去掉停用词(没有特殊含义的词,比如英文的a,is等,中文: 这,的,是等),框架一般支持可以自定义停用词
二、常见搜索引擎框架介绍与比较
1. java 全文搜索引擎框架 lucene
1.1 简介
lucene的开发语言是java,也是java家族中最为出名的一个开源搜索引擎,在java世界中已经是标准的全文检索程序,它提供了完整的查询引擎和索引引擎,没有中文分词引擎,需要自己去实现,因此用lucene去做一个搜素引擎需要自己去架构,另外它不支持实时搜索。但是solr和elasticsearch都是基于lucene封装。
1.2 优点
成熟的解决方案,有很多的成功案例。apache *项目,正在持续快速的进步。庞大而活跃的开发社区,大量的开发人员。它只是一个类库,有足够的定制和优化空间:经过简单定制,就可以满足绝大部分常见的需求;经过优化,可以支持 10亿+ 量级的搜索。
1.3 缺点
需要额外的开发工作。所有的扩展,分布式,可靠性等都需要自己实现;非实时,从建索引到可以搜索中间有一个时间延迟,而当前的“近实时”(lucene near real time search)搜索方案的可扩展性有待进一步完善.
2. apache solr
2.1 简介
solr是一个高性能,采用java开发,基于lucene的全文搜索服务器。文档通过http利用xml加到一个搜索集合中。查询该集合也是通过 http收到一个xml/json响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提 供一套强大data schema来定义字段,类型和设置文本分析,提供基于web的管理界面等。
2.2 优点
(1)solr有一个更大、更成熟的用户、开发和贡献者社区。
(2)支持添加多种格式的索引,如:html、pdf、微软 office 系列软件格式以及 json、xml、csv 等纯文本格式。
(3)solr比较成熟、稳定。
(4)不考虑建索引的同时进行搜索,速度更快。
2.3 缺点
建立索引时,搜索效率下降,实时索引搜索效率不高
3. elastic search
3.1 简介
elasticsearch是一个基于lucene构建的开源,分布式,restful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过http使用json进行数据索引。
3.2 优点
(1)elasticsearch是分布式的。不需要其他组件,分发是实时的,被叫做”push replication”。
(2)elasticsearch 完全支持 apache lucene 的接近实时的搜索。
(3)处理多租户(multitenancy)不需要特殊配置,而solr则需要更多的高级设置。
(4)elasticsearch 采用 gateway 的概念,使得完备份更加简单。
各节点组成对等的网络结构,某些节点出现故障时会自动分配其他节点代替其进行工作。
3.3 缺点
还不够自动(不适合当前新的index warmup api)
4. elasticsearch 与 solr 的比较总结
(1)二者安装都很简单
(2)solr 利用 zookeeper 进行分布式管理,而 elasticsearch 自身带有分布式协调管理功能;
(3)solr 支持更多格式的数据,而 elasticsearch 仅支持json文件格式;
(4)solr 官方提供的功能更多,而 elasticsearch 本身更注重于核心功能,高级功能多有第三方插件提供;
(5)solr 在传统的搜索应用中表现好于 elasticsearch,但在处理实时搜索应用时效率明显低于 elasticsearch。
(6)总之,solr 是传统搜索应用的有力解决方案,但 elasticsearch 更适用于新兴的实时搜索应用。
5. sphinx
5.1 简介
sphinx一个基于sql的全文检索引擎,特别为一些脚本语言(php,python,perl,ruby)设计搜索api接口。
sphinx是一个用c++语言写的开源搜索引擎,也是现在比较主流的搜索引擎之一,在建立索引的事件方面比lucene快50%,但是索引文件比lucene要大一倍,因此sphinx在索引的建立方面是空间换取事件的策略,在检索速度上,和lucene相差不大,但检索精准度方面lucene要优于sphinx,另外在加入中文分词引擎难度方面,lucene要优于sphinx.其中sphinx支持实时搜索,使用起来比较简单方便.
sphinx可以非常容易的与sql数据库和脚本语言集成。当前系统内置mysql和postgresql 数据库数据源的支持,也支持从标准输入读取特定格式 的xml数据。通过修改源代码,用户可以自行增加新的数据源(例如:其他类型的dbms 的原生支持)
5.2 特点
(1)高速的建立索引(在当代cpu上,峰值性能可达到10 mb/秒);
(2)高性能的搜索(在2 – 4gb 的文本数据上,平均每次检索响应时间小于0.1秒);
(3)可处理海量数据(目前已知可以处理超过100 gb的文本数据, 在单一cpu的系统上可 处理100 m 文档);
(4)提供了优秀的相关度算法,基于短语相似度和统计(bm25)的复合ranking方法;
(5)支持分布式搜索;
(6)支持短语搜索
(7)提供文档摘要生成
(8)可作为mysql的存储引擎提供搜索服务;
(9)支持布尔、短语、词语相似度等多种检索模式;
(10)文档支持多个全文检索字段(最大不超过32个);
(11)文档支持多个额外的属性信息(例如:分组信息,时间戳等);
(12)支持断词;
6. katta
6.1 简介
基于 lucene 的,支持分布式,可扩展,具有容错功能,准实时的搜索方案。
6.2 优点
开箱即用,可以与 hadoop 配合实现分布式。具备扩展和容错机制。
6.3 缺点
只是搜索方案,建索引部分还是需要自己实现。在搜索功能上,只实现了最基本的需求。成功案例较少,项目的成熟度稍微差一些。因为需要支持分布式,对于一些复杂的查询需求,定制的难度会比较大。