lucene Analyzer 分词一

程序员文章站 2022-07-09 09:34:54

...

package com.hb;

import java.io.Reader;
import java.util.Set;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.LetterTokenizer;
import org.apache.lucene.analysis.LowerCaseFilter;
import org.apache.lucene.analysis.StopAnalyzer;
import org.apache.lucene.analysis.StopFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.util.Version;

public class MyStopAnalyzer extends Analyzer {
	private Set stops;

	public MyStopAnalyzer(String[] strs){
		//会自动将字符串数据转为set
		stops = StopFilter.makeStopSet(Version.LUCENE_35, strs, true);
		//将原有的停用词加入到现在的停用词中
		stops.addAll(StopAnalyzer.ENGLISH_STOP_WORDS_SET);
	}
	
	public MyStopAnalyzer(){
		//获取原有的停用词
		stops = StopAnalyzer.ENGLISH_STOP_WORDS_SET;
	}
	
	@Override
	public TokenStream tokenStream(String fieldname, Reader reader) {
		//为这个分词器设定过滤链和Tokenizers
		return new StopFilter(Version.LUCENE_35, 
				new LowerCaseFilter(Version.LUCENE_35, new LetterTokenizer(Version.LUCENE_35, reader)), 
				stops);
	}

}

上一篇： PHP MongoDB-创建索引(create index)

下一篇： 4500元配置玩转守望先锋 i5-6600/GTX960游戏电脑配置

lucene Analyzer 分词一

relaxlife.net发布一个自己开发的中文分词程序

php 一元分词算法

Lucene05-分词器

C#编写了一个基于Lucene.Net的搜索引擎查询通用工具类：SearchEngineUtil

Net Core使用Lucene.Net和盘古分词器实现全文检索

Lucene-分词器简介及IK分词器的使用

LeetCode的一道题引申的python实现的对字符串进行分词，提取词频的方法

php 一元分词算法

relaxlife.net发布一个自己开发的中文分词程序

Lucene学习笔记（一）-------Lucene基础

lucene Analyzer 分词 一

relaxlife.net发布一个自己开发的中文分词程序

php 一元分词算法

Lucene05-分词器

C#编写了一个基于Lucene.Net的搜索引擎查询通用工具类：SearchEngineUtil

Net Core使用Lucene.Net和盘古分词器 实现全文检索

Lucene-分词器简介及IK分词器的使用

LeetCode的一道题引申的python实现的对字符串进行分词，提取词频的方法

php 一元分词算法

relaxlife.net发布一个自己开发的中文分词程序

Lucene学习笔记（一）-------Lucene基础

lucene Analyzer 分词一

Net Core使用Lucene.Net和盘古分词器实现全文检索