结巴分词(java版) jieba-analysis
程序员文章站
2022-07-01 09:54:32
...
结巴分词(java版) jieba-analysis
jieba-analysis
首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴 分词,更不会有现在的java版本。
结巴分词的原始版本为python编写
原项目见:https://github.com/huaban/jieba-analysis,
jar
# 当前稳定版本
<dependency>
<groupId>com.huaban</groupId>
<artifactId>jieba-analysis</artifactId>
<version>1.0.2</version>
</dependency>
# 当前快照版本
<dependency>
<groupId>com.huaban</groupId>
<artifactId>jieba-analysis</artifactId>
<version>1.0.3a</version>
</dependency>
java
import com.huaban.analysis.jieba.JiebaSegmenter;
/**
* @author zhaohp
* @Title: JieBaUtil
* @ProjectName sofaboot
* @date 2019/5/1015:33
* @Description: jieba中文分词
*/
public class JieBaUtil {
public static void main(String[] args) {
JiebaSegmenter segmenter = new JiebaSegmenter();
/*单词*/
System.out.println(segmenter.sentenceProcess("小明硕士毕业于中国科学院计算所,后在日本京都大学深造"));
System.out.println(segmenter.sentenceProcess("这是一个伸手不见五指的黑夜"));
System.out.println(segmenter.sentenceProcess("我是你爸爸,你个傻逼"));
/*多词*/
/*String[] sentences =
new String[] {"这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱Python和C++。", "我不喜欢日本和服。", "雷猴回归人间。",
"工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作", "结果婚的和尚未结过婚的"};
for (String sentence : sentences) {
System.out.println(segmenter.process(sentence, JiebaSegmenter.SegMode.INDEX).toString());
}*/
}
}
分词结果
上一篇: ElasticSearch
下一篇: FFmpeg 是如何实现多态的?