欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

lucene-Nutch分析

程序员文章站 2022-05-15 16:05:27
...

分析:Nutch在索引时进行分析所使用的二元语法技术与查询过程中对短语的优化技术结合在一起。

public class NutchExample{

public static void main(String[] args) throws IOException{

NutchDocumentAnalyze analyer=new NutchDocumentAnalyzer();

displayTokenWithDetails(analyzer,"The quick brown fox...");

net.nutch.searcher.QuerynutchQuery=net.nutch.searcher.Query.parse("\"the quick

brown\"");

Query query=QueryTranslator.translate(nutchQuery);

System.out.println("query="+query);

}

}

输出为

1:[the:<WORD>][the-quick:gram]

2:[quick:<WORD>]

3:[brown:<WORD>]

4:[fox:<WORD>]

可见th-quick和the处于相同位置,Nutch没有错过停用词,因为很多进修停用词和后面的词一起表达语意

相关标签: lucene .net