简单使用lucene
程序员文章站
2024-02-22 15:24:55
...
此处使用的是lucene自身集合的分词器,仅供入门学习使用
1、在pom.xml文件中导入关于lucene的3个jar包
<dependency> <!-- lucene自带只能中文分词器jar包 -->
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-analyzers-smartcn</artifactId>
<version>6.0.0</version>
</dependency>
<dependency> <!-- 测试用到的lucene工具包 -->
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-analyzers-common</artifactId>
<version>6.0.0</version>
</dependency>
<dependency> <!-- 测试用到的lucene核心包 -->
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-core</artifactId>
<version>6.0.0</version>
</dependency>
2、编写测试类
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.analysis.core.SimpleAnalyzer;
import org.apache.lucene.analysis.core.WhitespaceAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.junit.Test;
public class LuceneTokenTest{
//编写一个静态方法,传入的不同分词器,同一个字符串进行分词计算
public static void printAnalyzer(Analyzer analyzer,String str) throws Exception {
//将字符串传话成流对象StringReader流
StringReader reader = new StringReader(str);
//analyzer底层是通过tokenStream方法来实现的数据流进行分词,属性计算,不同的分词器有不同的tokenStream
TokenStream tokenStream = analyzer.tokenStream("test",reader);
//重置属性,从头开始
tokenStream.reset();
//从分词tokenStream流中获取词项属性,词项:分词的每个最小意义的词,就是一个词项
CharTermAttribute attribute = tokenStream.getAttribute(CharTermAttribute.class);
//while循环获取所有的词项输出
while(tokenStream.incrementToken()){
System.out.println(attribute.toString());
}
}
@Test
public void run() throws Exception{
Analyzer a1 = new SmartChineseAnalyzer();
Analyzer a2 = new WhitespaceAnalyzer();
Analyzer a3 = new SimpleAnalyzer();
String str = "春风又绿江南岸 明月何时照我还。老骥伏枥,志在千里,烈士暮年 壮心不已";
System.out.println("智能分词器***********************");
LuceneTokenTest.printAnalyzer(a1, str);
System.out.println("空格分词器***********************");
LuceneTokenTest.printAnalyzer(a2, str);
System.out.println("简单分词器***********************");
LuceneTokenTest.printAnalyzer(a3, str);
}
}
简单理解:
StringReader reader=new StringReader(str);是将传入的str字符串对象变成流对象。
TokenStream tokenStream = analyzer.tokenStream("test", reader);将传入的str的流对象转化成lucene识别的流对象
tokenStream.reset();将流对象重置
CharTermAttribute attribute = tokenStream.getAttribute(CharTermAttribute.class);将流对象拆分成一个个的词项
while(tokenStream.incrementToken()){
System.out.println(attribute.toString());
} 将流对象遍历输出
3、运行结果
智能分词器***********************
春风
又
绿
江南
岸
明月
何时
照
我
还
老骥伏枥
志
在
千
里
烈士
暮年
壮心
不已
空格分词器***********************
春风又绿江南岸
明月何时照我还。老骥伏枥,志在千里,烈士暮年
壮心不已
简单分词器***********************
春风又绿江南岸
明月何时照我还
老骥伏枥
志在千里
烈士暮年
壮心不已
从结果可以看出,智能分词器是将语句拆分成最小有意义的词项,空格分词器只是在有空格的时候才进行拆分,简单分词器就只是遇到标点符号时就进行拆分。
从此案例可以看出Lucene本身自带的分词器有很大的局限性,不能满足我们语言的需求,于是Lucene就定义了Analyer的接口,只需要开发人员实现了这个接口就可以自定义进行分词的计算。