欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

lucene分词

程序员文章站 2022-07-09 09:35:06
...
1.Analyzer里面有个重要的方法,就是

public abstract TokenStream tokenStream(String fieldName, Reader reader);

一个TokenStream是用来走访Token的iterator(迭代器),TokenStream类里面保存分词后的所有Token,里面有个最重要的方法就是next();方法,返回下一个Token。

public abstract class TokenStream {

public abstract Token next() throws IOException;

public void close() throws IOException {}

}


一个Tokenizer,is-a TokenStream(派生自TokenStream),其输入为Reader


public abstract class Tokenizer extends TokenStream {

protected Reader input;

protected Tokenizer() {}

protected Tokenizer(Reader input) {

this.input = input;

}

public void close() throws IOException {

input.close();

}

}




一个TokenFilter is–a TokenStream(派生自TokenStream),其义如名就是用来完成对TokenStream的过滤操作,譬如去StopWords,将Token变为小写等。


public abstract class TokenFilter extends TokenStream {

protected TokenStream input;

protected TokenFilter() {}

protected TokenFilter(TokenStream input) {

this.input = input;

}

public void close() throws IOException {

input.close();

}

}



一个Analyzer就是一个TokenStream工厂


public abstract class Analyzer {

public TokenStream tokenStream(String fieldName, Reader reader)

{

return tokenStream(reader);

}

public TokenStream tokenStream(Reader reader)

{

return tokenStream(null, reader);

}

}



1.每个词条就是一个Token。Token类就是记录这些词条的原始信息的。
3.Tokenizer继承于TokenStream。
4.
相关标签: lucene Java