中文分词mmseg4j+solr 5.3.1配置

程序员文章站 2022-05-17 12:36:03

...

基础环境：
solr 5.3.1
mmseg4j-solr-2.3.0.jar
mmseg4j-core-1.10.0.jar
CentOS release 6.2 (Final)
java version "1.7.0_71"

jar添加：
位置：solr-5.3.1/server/solr-webapp/webapp/WEB-INF/lib
配置：
在schema.xml中加上如下配置

<fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100">
        <analyzer>
                <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex"/>
                <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
        </analyzer>
</fieldtype>
<fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100">
        <analyzer>
                <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />
                <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
        </analyzer>
        </fieldtype>
        <fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100">
        <analyzer>
                <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="my-ext-dic" />
                <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
        </analyzer>
</fieldtype>


重新启动环境，就可以在solr 管理台看到对应的分词器了

上一篇： Lucene01---几个概念理解

下一篇： Solr 5.x的搭建（Solr自带的Jetty Server）与mmseg4j中文分词

中文分词mmseg4j+solr 5.3.1配置

Elasticsearch7.5配置IK中文分词器+拼音分词

solr配置中文分词器 IK分词器

Elasticsearch分词器介绍、内置分词器及配置中文分词器

docker 安装solr8.6.2 配置中文分词器的方法

solr4.3之配置中文分词IK