solr4.0加入中文分词IKanalry 博客分类: javalucene
程序员文章站
2024-03-26 08:34:41
...
1:solr4.0加入中文分词:
在IK的自带文档中有:
这里特别的罗嗦几句,在Solr4.0发布以后,官方取消了BaseTokenizerFactory接口,而直接使用Lucene Analyzer标准接口。因此IK分词器2012 FF版本也取消了org.wltea.analyzer.solr.IKTokenizerFactory类。
2:首先在tomcat不是的solr目录下lib中加入:
IKAnalyzer2012FF_u1.jar包
3:然后再solr目录C:\solr\collection1\conf下的schema.xml文件中加入:
<fieldType name="text" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
就可以了,在solr界面中analys选错 type下的 text就可以分词了
比如:
2:解释下,我在Ik的jar包中的dir字典加入了 停用词:
中潭露。