中文分词算法—— 基于词典的方法

程序员文章站 2022-04-23 08:44:59

...

1、基于词典的方法（字符串匹配，机械分词方法）

定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。

按照扫描方向的不同：正向匹配和逆向匹配

按照长度的不同：最大匹配和最小匹配

1.1正向最大匹配思想MM

1》从左向右取待切分汉语句的m个字符作为匹配字段，m为大机器词典中最长词条个数。

2》查找大机器词典并进行匹配。若匹配成功，则将这个匹配字段作为一个词切分出来。

若匹配不成功，则将这个匹配字段的最后一个字去掉，剩下的字符串作为新的匹配字段，进行再次匹配，重复以上过程，直到切分出所有词为止。

中文分词算法—— 基于词典的方法
1.2逆向最大匹配算法RMM

该算法是正向最大匹配的逆向思维，匹配不成功，将匹配字段的最前一个字去掉，实验表明，逆向最大匹配算法要优于正向最大匹配算法。

1.3 双向最大匹配法(Bi-directction Matching method,BM)

双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较，从而决定正确的分词方法。据SunM.S. 和 Benjamin K.T.（1995）的研究表明，中文中90.0％左右的句子，正向最大匹配法和逆向最大匹配法完全重合且正确，只有大概9.0％的句子两种切分方法得到的结果不一样，但其中必有一个是正确的（歧义检测成功），只有不到1.0％的句子，或者正向最大匹配法和逆向最大匹配法的切分虽重合却是错的，或者正向最大匹配法和逆向最大匹配法切分不同但两个都不对（歧义检测失败）。这正是双向最大匹配法在实用中文信息处理系统中得以广泛使用的原因所在。

1.4设立切分标志法

收集切分标志，在自动分词前处理切分标志，再用MM、RMM进行细加工。

1.5最佳匹配（OM，分正向和逆向）

对分词词典按词频大小顺序排列，并注明长度，降低时间复杂度。

优点：易于实现

缺点：匹配速度慢。对于未登录词的补充较难实现。缺乏自学习。

算法流程图如下：
中文分词算法—— 基于词典的方法

中文分词算法—— 基于词典的方法

C#基于基姆拉尔森算法计算指定日期是星期几的方法

JavaScript控制输入框中只能输入中文、数字和英文的方法【基于正则实现】

php实现scws中文分词搜索的方法

NLPIR（北理工张华平版中文分词系统）的SDK(C++)调用方法

Python查找两个有序列表中位数的方法【基于归并算法】

基于规则的中文分词

NLP学习（四）规则分词-正向、逆向和双向最大匹配算法的中文分词-python3实现

聚类算法之DBSCAN(具有噪声的基于密度的聚类方法)

基于随机森林算法的多因子选股方法分析与实现(2,代码实现)

基于随机森林算法的多因子选股方法分析与实现（1）