欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

简单使用lucene

程序员文章站 2024-02-22 15:24:55
...

此处使用的是lucene自身集合的分词器,仅供入门学习使用

1、在pom.xml文件中导入关于lucene的3个jar包

<dependency>      <!-- lucene自带只能中文分词器jar包 -->
	<groupId>org.apache.lucene</groupId>
	<artifactId>lucene-analyzers-smartcn</artifactId>
	<version>6.0.0</version>
</dependency>
<dependency>      <!-- 测试用到的lucene工具包 -->
	<groupId>org.apache.lucene</groupId>
	<artifactId>lucene-analyzers-common</artifactId>
	<version>6.0.0</version>
</dependency>
<dependency>       <!-- 测试用到的lucene核心包 -->
	<groupId>org.apache.lucene</groupId>
	<artifactId>lucene-core</artifactId>
	<version>6.0.0</version>
</dependency>

2、编写测试类

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.analysis.core.SimpleAnalyzer;
import org.apache.lucene.analysis.core.WhitespaceAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.junit.Test;

public class LuceneTokenTest{

        //编写一个静态方法,传入的不同分词器,同一个字符串进行分词计算
	public static void printAnalyzer(Analyzer analyzer,String str) throws Exception {
        //将字符串传话成流对象StringReader流
		StringReader reader = new StringReader(str);
        //analyzer底层是通过tokenStream方法来实现的数据流进行分词,属性计算,不同的分词器有不同的tokenStream        		
		TokenStream tokenStream = analyzer.tokenStream("test",reader);
        //重置属性,从头开始
		tokenStream.reset();
        //从分词tokenStream流中获取词项属性,词项:分词的每个最小意义的词,就是一个词项
		CharTermAttribute attribute = tokenStream.getAttribute(CharTermAttribute.class);
	//while循环获取所有的词项输出
                while(tokenStream.incrementToken()){
			System.out.println(attribute.toString());
		}
	}
	
	@Test
	public void run() throws Exception{
		
		Analyzer a1 = new SmartChineseAnalyzer();
		Analyzer a2 = new WhitespaceAnalyzer();
		Analyzer a3 = new SimpleAnalyzer();
		
		String str = "春风又绿江南岸 明月何时照我还。老骥伏枥,志在千里,烈士暮年 壮心不已";
		System.out.println("智能分词器***********************");
		LuceneTokenTest.printAnalyzer(a1, str);
		System.out.println("空格分词器***********************");
		LuceneTokenTest.printAnalyzer(a2, str);
		System.out.println("简单分词器***********************");
		LuceneTokenTest.printAnalyzer(a3, str);		
	}
}

简单理解:

StringReader reader=new StringReader(str);是将传入的str字符串对象变成流对象。

TokenStream tokenStream = analyzer.tokenStream("test", reader);将传入的str的流对象转化成lucene识别的流对象

tokenStream.reset();将流对象重置

CharTermAttribute attribute = tokenStream.getAttribute(CharTermAttribute.class);将流对象拆分成一个个的词项

while(tokenStream.incrementToken()){
            System.out.println(attribute.toString());
        }  将流对象遍历输出

3、运行结果

智能分词器***********************
春风
又
绿
江南
岸
明月
何时
照
我
还
老骥伏枥
志
在
千
里
烈士
暮年
壮心
不已
空格分词器***********************
春风又绿江南岸
明月何时照我还。老骥伏枥,志在千里,烈士暮年
壮心不已
简单分词器***********************
春风又绿江南岸
明月何时照我还
老骥伏枥
志在千里
烈士暮年
壮心不已

从结果可以看出,智能分词器是将语句拆分成最小有意义的词项,空格分词器只是在有空格的时候才进行拆分,简单分词器就只是遇到标点符号时就进行拆分。

从此案例可以看出Lucene本身自带的分词器有很大的局限性,不能满足我们语言的需求,于是Lucene就定义了Analyer的接口,只需要开发人员实现了这个接口就可以自定义进行分词的计算。

相关标签: lucene Analyzer