lucene-亚洲语种和unicode字符分析
1、unicode字符
在lucene内部,所有的字符都是以标准UTF-8编码的,JAVA会在字符串对象内对Unicode编码进行自动处理,从而把我们从这个繁琐的处理任务中解放出来。
2、亚洲语种分析
汉语、日语及韩语(CJK)等亚洲语种一般使用表意文字,需要使用不同的分析方法来识别和分隔语汇单元。
Lucene的Sandbox中有两个用于亚洲语言分析的分析器。使用IndexSearcher查询时跟对英文进行查询的代码一样,但是查询代码所在的JAVA源程序代码必须保存为UTF-8格式的文档。如Hitshits=searcher.search(new TermQuery(new Term("contents","道")));
3、一个示例程序ChineseDemo
public class ChineseDemo{
privatestatic String[] strings=("道德经");
privatestatic Analyzer[] analyzer={
new SimpleAnalyzer(),
new StandardAnalyzer(),
new ChineseAnanlyzer(),//Sandbox的中文分析器
new CJKAnanlyzer()//sandbox的中文分析器
};
publicvoid main(String args[]) throws Exception{
for (int i=0;i<strings.length;i++){
String string=strings[i];
for (int j=0;j<ananlyzer.length;j++){
Analyzer analyzer=analyzer[j];
analyzer(string,analyzer);
}
}
}
privatestatic void analyze(String string,Ananylzer analyzer) throwsIOException{
StringBuffer buffer=new StringBuffer();
Token[]tokens=AnalyzerUtils.tokenSFromAnalysis(analyzer,string);
for(int i=0;i<tokens.length;i++){
buffer.append("[");
buffer.append(tokens[i].termText());
buffer.append("]");
}
String output=buffer.toString();
System.out.println(output);
}
}
结果是:
SimpleAnalyzer输出[道德经]
StandardAnalyzer输出[道][德][经]
ChineseAnalyzer输出[道][德][经]
CJKAnaylyzer输出[道德][德经]
可见CJK将前后相连的字符组合在一起,这样容易产生汉字词组,但同时产生了大量不是词组的词组
上一篇: lucene-wildcardQuery
下一篇: lucene-Nutch分析