lucene分词
程序员文章站
2022-07-09 09:35:06
...
1.Analyzer里面有个重要的方法,就是
一个TokenStream是用来走访Token的iterator(迭代器),TokenStream类里面保存分词后的所有Token,里面有个最重要的方法就是next();方法,返回下一个Token。
一个Tokenizer,is-a TokenStream(派生自TokenStream),其输入为Reader
一个TokenFilter is–a TokenStream(派生自TokenStream),其义如名就是用来完成对TokenStream的过滤操作,譬如去StopWords,将Token变为小写等。
一个Analyzer就是一个TokenStream工厂
1.每个词条就是一个Token。Token类就是记录这些词条的原始信息的。
3.Tokenizer继承于TokenStream。
4.
public abstract TokenStream tokenStream(String fieldName, Reader reader);
一个TokenStream是用来走访Token的iterator(迭代器),TokenStream类里面保存分词后的所有Token,里面有个最重要的方法就是next();方法,返回下一个Token。
public abstract class TokenStream {
public abstract Token next() throws IOException;
public void close() throws IOException {}
}
一个Tokenizer,is-a TokenStream(派生自TokenStream),其输入为Reader
public abstract class Tokenizer extends TokenStream {
protected Reader input;
protected Tokenizer() {}
protected Tokenizer(Reader input) {
this.input = input;
}
public void close() throws IOException {
input.close();
}
}
一个TokenFilter is–a TokenStream(派生自TokenStream),其义如名就是用来完成对TokenStream的过滤操作,譬如去StopWords,将Token变为小写等。
public abstract class TokenFilter extends TokenStream {
protected TokenStream input;
protected TokenFilter() {}
protected TokenFilter(TokenStream input) {
this.input = input;
}
public void close() throws IOException {
input.close();
}
}
一个Analyzer就是一个TokenStream工厂
public abstract class Analyzer {
public TokenStream tokenStream(String fieldName, Reader reader)
{
return tokenStream(reader);
}
public TokenStream tokenStream(Reader reader)
{
return tokenStream(null, reader);
}
}
1.每个词条就是一个Token。Token类就是记录这些词条的原始信息的。
3.Tokenizer继承于TokenStream。
4.