Java实现的最大匹配分词算法详解

程序员文章站 2024-03-01 14:52:04

本文实例讲述了java实现的最大匹配分词算法。分享给大家供大家参考，具体如下：全文检索有两个重要的过程： 1分词 2倒排索引我们先看分词算法目前对中文分词有...

本文实例讲述了java实现的最大匹配分词算法。分享给大家供大家参考，具体如下：

全文检索有两个重要的过程：

1分词

2倒排索引

我们先看分词算法

目前对中文分词有两个方向，其中一个是利用概率的思想对文章分词。也就是如果两个字，一起出现的频率很高的话，我们可以假设这两个字是一个词。这里可以用一个公式衡量：m(a,b)=p(ab)/p(a)p(b)，其中 a表示一个字，b表示一个字，p(ab)表示ab相邻出现的概率，p(a)表示a在这篇文章中的频度，p(b)表示b在这篇文章中的频度。用概率分词的好处是不需要借助词典的帮助，坏处是算法比较麻烦，效率不高，也存在一定的出错率。

另外的一个方向是使用词典分词。就是事先为程序准备一个词典，然后通过这个词典对文章分词。目前较流行的方式有正向最大匹配算法和逆向最大匹配算法。逆向最大匹配算法在准确性上要更好一些。

以 “我是一个坏人” 为例，并最大词长为３，词库包含有　我、是、一、个、一个、坏人、大坏人

正向的顺序为

我是一
我是
我 ===> 得到一个词
是一个
是一
是 ===>得到一个词
一个坏
一个===> 得到一个词
坏人===>得到一个词

结果我、是、一个、坏人

反向算法

个坏人
坏人==> 坏人
是一个
一个==> 一个
我是
是==> 是
我==> 我

结果我、是、一个、坏人

java代码如下

package data;
import java.util.arrays;
import java.util.hashset;
import java.util.set;
/**
 * 最大匹配分词算法
 *
 * @author jyc506
 *
 */
public class splitstring {
 private set<string> set = new hashset<string>();
 private int positiveover = 0;
 private int reverseover = 0;
 /**
  * 正向最大匹配
  *
  * @param str 要分词的句子
  * @param num 词的最大长度
  * @return
  */
 public string[] positivesplit(string str, int maxsize) {
  int tem = 0;
  int length = str.length();
  string[] ss = new string[length];
  char[] cc = str.tochararray();
  for (int i = 0; i < length; i++) {
   positiveover = 0;
   string sb = this.tostr(cc, i, maxsize);
   ss[tem++] = sb;
   i = i + positiveover;
  }
  string[] ss2 = new string[tem];
  system.arraycopy(ss, 0, ss2, 0, tem);
  return ss2;
 }
 /**
  * 添加词库
  *
  * @param words
  */
 public void addword(string[] words) {
  for (string st : words) {
   this.set.add(st);
  }
 }
 /**
  * 逆向最大匹配
  *
  * @param str
  * @param num
  * @return
  */
 public string[] reversesplit(string str, int num) {
  int tem = 0;
  int length = str.length();
  string[] ss = new string[length];
  char[] cc = str.tochararray();
  for (int i = str.length() - 1; i > -1; i--) {
   reverseover = 0;
   string sb = this.tostr2(cc, i, num);
   tem++;
   ss[--length] = sb;
   i = i - reverseover;
  }
  string[] ss2 = new string[tem];
  system.arraycopy(ss, str.length() - tem, ss2, 0, tem);
  return ss2;
 }
 private string tostr(char[] cs, int start, int num) {
  int num2 = num;
  out: for (int j = 0; j < num; j++) {
   stringbuffer sb = new stringbuffer();
   for (int i = 0; i < num2; i++) {
    if (start + i < cs.length) {
     sb.append(cs[start + i]);
    } else {
     num2--;
     j--;
     continue out;
    }
   }
   if (set.contains(sb.tostring())) {
    positiveover = num2 - 1;
    return sb.tostring();
   }
   num2--;
  }
  return string.valueof(cs[start]);
 }
 private string tostr2(char[] cs, int start, int num) {
  int num2 = num;
  for (int j = 0; j < num; j++) {
   stringbuffer sb = new stringbuffer();
   for (int i = 0; i < num2; i++) {
    int index = start - num2 + i + 1;
    if (index > -1) {
     sb.append(cs[index]);
    } else {
     num2--;
    }
   }
   if (set.contains(sb.tostring())) {
    reverseover = num2 - 1;
    return sb.tostring();
   }
   num2--;
  }
  return string.valueof(cs[start]);
 }
 public static void main(string[] args) {
  string[] words = new string[] { "我们", "我们五人", "五人一组", "一组" };
  splitstring ss = new splitstring();
  /*添加词到词库*/
  ss.addword(words);
  string st = "我们五人一组";
  system.out.println("测试结果：");
  system.out.println("要分词的句子：" + st);
  /*使用两种方式分词，下面我指定最大词长度为4*/
  string[] ss2 = ss.reversesplit(st, 4);
  string[] ss1 = ss.positivesplit(st, 4);
  system.out.println("正向最大匹配分词算法分词结果：" + arrays.tostring(ss1));
  system.out.println("逆向最大匹配分词算法分词结果：" + arrays.tostring(ss2));
 }
}

Java实现的最大匹配分词算法详解

更多关于java算法相关内容感兴趣的读者可查看本站专题：《java数据结构与算法教程》、《java字符与字符串操作技巧总结》、《java操作dom节点技巧总结》、《java文件与目录操作技巧汇总》和《java缓存操作技巧汇总》

希望本文所述对大家java程序设计有所帮助。

上一篇： asp.net 通用的连接数据库实例代码

下一篇： Java中堆和栈的区别详解

Java实现的最大匹配分词算法详解

Java实现的最大匹配分词算法详解

Java实现的最大匹配分词算法详解

Java实现的双向匹配分词算法示例

Java实现的计算最大下标距离算法示例

python中文分词教程之前向最大正向匹配算法详解

Java实现求子数组和的最大值算法示例

详解Java实现的k-means聚类算法

java实现的RSA加密算法详解

java实现的DES加密算法详解

Java实现的双向匹配分词算法示例