Lucene 原理与代码分析完整版 博客分类: Lucene 学习总结 lucene搜索引擎IDEA数据结构全文检索
Lucene 原理与代码分析系列文章已经基本告一段落,可能问题篇还会有新的更新。 完整版pdf可由以附件下载。 目录如下: 第三步:将得到的词元(Token)传给语言处理组件(Linguistic Processor)。 第四步:将得到的词(Term)传给索引组件(Indexer)。 3. 合并相同的词(Term)成为文档倒排(Posting List)链表。 2. 语法分析主要是根据查询语句的语法规则来形成一棵语法树。 2. 判断Term之间的关系从而得到文档相关性的过程,也即向量空间模型的算法(VSM)。 4.1.3. 域(Field)的数据信息(.fdt,.fdx) 4.1.3. 词向量(Term Vector)的数据信息(.tvx,.tvd,.tvf) 4.1、得到当前线程对应的文档集处理对象(DocumentsWriterThreadState) 4.2、用得到的文档集处理对象(DocumentsWriterThreadState)处理文档 4.3、用DocumentsWriter.finishDocument结束本次文档添加 5、DocumentsWriter对CharBlockPool,ByteBlockPool,IntBlockPool的缓存管理 2.1.2、通过segment_N文件中保存的各个段的信息打开各个段 2.4.1、创建Weight对象树,计算Term Weight 第八章:Lucene的查询语法,JavaCC及QueryParser 5.6、PayloadTermQuery及PayloadNearQuery 6.4、FieldCacheRangeFilter<T>及FieldCacheTermsFilter 6.5、MultiTermQueryWrapperFilter<Q> 6、不同的Analyzer就是组合不同的Tokenizer和TokenFilter得到最后的TokenStream 7.1、StandardTokenizerImpl.jflex 问题一:为什么能搜的到“中华 AND *”却搜不到“中华*”? 在索引阶段设置Document Boost和Field Boost,存储在(.nrm)文件中。
目录