欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

lucene index 索引

程序员文章站 2022-05-17 09:30:45
...

索引过程的核心类:
IndexWriter
Analyzer
Document
Field
Directory

IndexWriter
IndexWriter 是 Lucene 用来创建索引的一个核心的类,他的作用是把一个个的 Document 对象加到索引中来。

Document
Document 是用来描述文档的,这里的文档可以指一个 HTML 页面,一封电子邮件,或者是一个文本文件。一个 Document 对象由多个 Field 对象组成的。可以把一个 Document 对象想象成数据库中的一个记录,而每个 Field 对象就是记录的一个字段。

Field
Field 对象是用来描述一个文档的某个属性的。
每个 Document 对象都包含一个或多个不同命名的域,这些域包含于 Field 类中。


Analyzer
在一个文档被索引之前,首先需要对文档内容进行分词处理,这部分工作就是由 Analyzer 来做的。Analyzer 类是一个抽象类,它有多个实现。针对不同的语言和应用需要选择适合的 Analyzer。Analyzer 把分词后的内容交给 IndexWriter 来建立索引。


Directory
这个类代表了 Lucene 的索引的存储的位置,这是一个抽象类,它目前有两个实现:
第一个是 FSDirectory,它表示一个存储在文件系统中的索引的位置;
第二个是 RAMDirectory,它表示一个存储在内存当中的索引的位置。