欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

结巴分词(java版) jieba-analysis

程序员文章站 2022-07-01 09:54:32
...

结巴分词(java版) jieba-analysis

jieba-analysis
首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴 分词,更不会有现在的java版本。
结巴分词的原始版本为python编写
原项目见:https://github.com/huaban/jieba-analysis,

jar

# 当前稳定版本

<dependency>
  <groupId>com.huaban</groupId>
  <artifactId>jieba-analysis</artifactId>
  <version>1.0.2</version>
</dependency>
# 当前快照版本

<dependency>
  <groupId>com.huaban</groupId>
  <artifactId>jieba-analysis</artifactId>
  <version>1.0.3a</version>
</dependency>

java

import com.huaban.analysis.jieba.JiebaSegmenter;

/**
 * @author zhaohp
 * @Title: JieBaUtil
 * @ProjectName sofaboot
 * @date 2019/5/1015:33
 * @Description: jieba中文分词
 */

public class JieBaUtil {

    public static void main(String[] args) {

        JiebaSegmenter segmenter = new JiebaSegmenter();
        /*单词*/
        System.out.println(segmenter.sentenceProcess("小明硕士毕业于中国科学院计算所,后在日本京都大学深造"));
        System.out.println(segmenter.sentenceProcess("这是一个伸手不见五指的黑夜"));
        System.out.println(segmenter.sentenceProcess("我是你爸爸,你个傻逼"));
        /*多词*/
        /*String[] sentences =
                new String[] {"这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱Python和C++。", "我不喜欢日本和服。", "雷猴回归人间。",
                        "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作", "结果婚的和尚未结过婚的"};
        for (String sentence : sentences) {
            System.out.println(segmenter.process(sentence, JiebaSegmenter.SegMode.INDEX).toString());
        }*/


    }
}

分词结果

结巴分词(java版) jieba-analysis