欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

nutch查询体系

程序员文章站 2022-05-16 09:09:43
...

1、使用大量的lucene索引。适合分布式搜索

2、由以下几个步骤完成:

1)HTTP服务器接收用户发送过来的请求。对应到Nutch的运行代码中就是一个servlet,称为查询处理器。查询处理器负责响应用户的请求,并将相应的HTML结果返回给用户。

2)查询处理器对查询语句做一些微小的处理并将搜索的项转发到一组运行索引搜索器的机器上,每个索引搜索器并行工作且返回一组有序的文档ID列表。

3)大量从查询处理器返回的搜索结果数据流经过查询处理咕嘟的比较,找到匹配最好的。如果其中任何一个索引搜索器在1-2秒之后返回结果失败,该搜索器的结果被忽略。最后列表由成功的搜索器返回的结果组成。

3、NUTCH根据搜索项对索引文件进行切分。

4、

1)为了获取小数量的文档,查询处理器会对每个索引搜索器进行查询。

2)在每个用户查询被处理之前,它会被扩展为复杂的lucene查询。每个索引过的文档包括以下域:网页自身内容,网页URL文本值,由所有关健字文本组成的合成文档。

3)把在WEB上出现得非常频繁的关键字组做为一个整体来索引。

4) 在使用lucene执行索引操作前,nutch的内容获取器/索引器需要预处理HTML文档。

5)nutch进程间通信层保持了查询处理器与索引搜索器间长时间的连接。