【笔记】串的模式匹配算法

程序员文章站 2022-06-06 22:41:42

...

一BF算法
二KMP算法
三模式匹配应用举例

串的模式匹配也称为子串的定位操作，即查找子串在主串中出现的位置。设有主串S和子串T，如果在主串S中找到一个与子串T相相等的串，则返回串T的第一个字符在串S中的位置。其中，主串S又称为目标串，子串T又称为模式串。本文主要介绍两种常用的模式匹配算法，即朴素模式匹配算法——BF算法和改进算法——KMP算法。

一、BF算法

1.BF算法思想

BF算法思想是从主串S=“s0s1…sn−1”的第pos个字符开始与模式串T=“t0t1…tm−1”的第一个字符比较，如果相等则继续逐个比较后续字符；否则从主串的下一个字符开始重新与模式串T的第一个字符比较，依此类推。如果在主串S中存在与模式串T相等的连续字符序列，则匹配成功，函数返回模式串T中第一个字符在主串中S中的位置；否则函数返回-1表示匹配失败。
假设主串为S=“ababcabcacbab”，模式串T=“abcac”，S的长度为n=13，T的长度为m=5。用变量i表示主串S中当前正在比较字符的下标，变量j表示子串T中当前正在比较字符的下标。模式匹配过程如下图所示。

BF算法简单且容易理解，并且进行某些文本处理时，效率也比较高；然后在有些情况下，则效率很低。下面分析其时间复杂性。设串S长度为n，串T长度为m。匹配成功的情况下，考虑两种极端情况：

最好情况下

在最好情况下，每趟不成功的匹配都发生在第一对字符比较时。例如：
$s = “ a a a a a a a a a a b c ”, t = “ b c ”$
设匹配成功发生在si处，则字符比较次数在前面i-1趟匹配*比较了i-1次，第i趟成功的匹配共比较了m次，所以总共比较了i-1+m次，所有匹配成功的可能共有n-m+1种。设从si开始与t串匹配成功的概率为pi，在等概率的情况下pi=1n−m+1，因此最好情况下平均比较的次数是 $1 n - m + 1 \sum i = 1 n - m + 1 (i - 1 + m) = 12 (n + m)$
即最好情况下的时间复杂性是O(n+m)。

最坏情况下

在最坏情况下，每趟匹配不成功的匹配都发生在t的最后一个字符。例如：
$s = “ a a a a a a a a a a a b ”, t = “ a a a b ”$
设匹配成功发生在si处，则在前面i-1趟匹配*比较了（i-1）*m次，第i趟成功的匹配共比较了m次，所以总共比较了i*m次，共需要进行n-m+1趟比较。因此最坏情况下，的平均比较次数是 $1 n - m + 1 \sum i = 1 n - m + 1 i m = m (n - m + 2) 2$
即最坏情况下的时间复杂性是O(n∗m)。

2.BF算法实现（C语言）

假设串采用顺序存储方式存储，则BF匹配算法如下：

int B_FIndex(SeqString S,int pos,SeqString T)
/*BF模式匹配算法。在主串S中的第pos个位置开始查找子串T，如果找到返回子串在主串的位置；否则，返回-1*/
{
    int i,j;
    i=pos-1;
    j=0;
    while(i<S.length&&j<T.length)
    {
        if(S.str[i]==T.str[j])      /*如果串S和串T中对应位置字符相等，则继续比较下一个字符*/
        {
            i++;
            j++;
        }
        else                    /*如果当前对应位置的字符不相等，则从串S的下一个字符开始，T的第0个字符开始比较*/
        {
            i=i-j+1;
            j=0;
        }
    }
    if(j>=T.length)                 /*如果在S中找到串T，则返回子串T在主串S的位置*/
        return i-j+1;
    else
        return -1;
}

在BF算法中，即使主串与模式串已有多个字符经过比较相等，只要有一个字符不相等，就需要将主串的比较位置回退。

二、KMP算法

KMP算法在BF算法的基础上有较大的改进，可在O(m+n)时间数量级上完成串的模式匹配，主要是消除了主串指针的回退，使算法效率有了很大程度的提高。

1.KMP算法思想

KMP算法的基本思想是在每一趟匹配过程中出现字符不等时，不需要回退主串的指针，而是利用已经得到前面“部分匹配”的结果，将模式串向右滑动若干个字符后，继续与主串中的当前字符进行比较。
假设主串S=“ababcabcacbab”，模式串T=“abcac”，KMP算法匹配过程如下左图所示。

从图中可以看出，KMP算法的匹配次数由BF算法的6趟减少为3趟。在整个KMP算法中，主串i指针没有回退。

下面讨论一般情况。假设主串S=“s0s1…sn−1”，模式串T=“t0t1…tm−1”。在模式匹配过程中，如果出现字符不匹配的情况，即当Si≠Tj(0≤i<n,0≤j<m)时，有

“ s i - j s i - j + 1 \dots s i - 1 ” = “ t 0 t 1 \dots t j - 1 ”

假设子串即模式串存在可重叠的真子串，即

“ t 0 t 1 \dots t k - 1 ” = “ t j - k t j - k + 1 \dots t j - 1 ”

即子串中存在从t0开始到tk−1与从tj−k到tj−1的重叠子串。根据上面两个等式，可以得出“si−ksi−k+1…si−1”=“t0t1…tk−1”，如上右图所示。

匹配过程中，当主串中的第i+1个字符与模式串中的第j+1个字符不等时，仅需将模式串向右滑动至第k+1个字符与主串中的第i+1个字符对齐，即si与tj对齐，此时，模式串中子串“t0t1…tk−1”必定与主串中的子串“si−ksi−k+1…si−1”相等，因此匹配只需从第i+1个字符与模式串中的第k+1个字符开始比较。
如果令next[j]=k，则next[j]表示当模式串中的第j个字符与主串中的对应的字符不相等时，在模式串中需要重新与主串中与该字符进行比较的字符的位置。模式串中的next函数定义如下:

其中第一种情况，next[j]的函数是为了方便算法设计而定义的；第二种情况，如果子串中存在重叠的真子串，则next[j]的取值就是k，即模式串的最长子串的长度；第三种情况，如果模式串中不存在重叠的子串，则从子串的第一个字符开始比较。

KMP算法的模式匹配过程：如果模式串T中存在真子串“t0t1…tk−1”=“tj−ktj−k+1…tj−1”，当模式串T的tj与主串S的si不相等，则按照next[j]=k将模式串向右滑动，从主串中的si与模式串的tk开始比较；如果si=tk，则主串与模式串的指针各自增1，继续比较下一个字符；如果si≠tk，则按照next[next[j]]将模式串继续向右滑动，将主串中的si与模式串中的next[next[j]]字符进行比较；如果仍然不相等，则按照以上方法，将模式串继续向右滑动，直到next[j]=-1。这时，模式串不再向右滑动，从si+1开始与t0进行比较。

利用next函数值的一个模式匹配示例如下图所示。

2.next函数的算法

求next函数值

模式串中的next函数值的取值与主串无关，仅与模式串有关，根据模式串next函数定义，next函数值可用递推的方法得到。
设next[j]=k，表示在模式串T中存在以下关系：

“ t 0 t 1 \dots t k - 1 ” = “ t j - k t j - k + 1 \dots t j - 1 ”

其中，0<k<j，k为满足等式的最大值，即不可能存在k′>k满足以上等式。则计算next[j+1]的值会出现两种情况：
(1)如果ti=tk，则表示在模式串T中满足关系“t0t1…tk”=“tj−ktj−k+1…tj”，并且不可能存在k′>k满足以上等式。因此有next[j+1]=k+1，即next[j+1]=next[j]+1。
(2)如果ti≠tk，则表示在模式串T中满足关系“t0t1…tk”≠“tj−ktj−k+1…tj”。在这种情况下，可以把求next函数值的问题看成一个模式匹配的问题。目前已经有“t0t1…tk−1”=“tj−ktj−k+1…tj−1”，但是ti≠tk，把模式串T向右滑动到k’=next[k]。
如果有tj=tk′，则表示模式串中有“t0t1…tk′”=“tj−k′tj−k′+1…tj”，因此有next[j+1]=k’+1，即next[j+1]=next[k]+1。
如果有tj≠tk′，则将模式串继续向右滑动到第next[k’]个字符与tj比较。如果仍不相等，则将模式串继续向右滑动到下表为next[next[k’]]字符与tj比较。依此类推，直到tj和模式串中某个字符匹配成功或不存在任何k′(1<k′<j)满足“t0t1…tk′”=“tj−k′tj−k′+1…tj”，则有next[j+1]=0。

改进的求next函数值算法

一般地，在求得next[j]=k后，如果模式串中的tj=tk，则当主串中的si≠tk时，不必再将si与tk比较，而是直接与tnext[k]比较。因此可以将求next函数值的算法进行修正，即在求得next[j]=k后，判断tj是否等于tk，如果相等，还需继续将模式串向右滑动，使k’=next[k]，判断tj是否等于tk′，直到两者不等为止。

3.KMP算法的实现（C语言）

KMP模式匹配算法
利用模式串T的next函数值求T在主串S中的第pos个字符之后的位置的KMP算法描述如下：

int KMP_Index(SeqString S,int pos,SeqString T,int next[])
/*KMP模式匹配算法。利用模式串T的next函数在主串S中的第pos个位置开始查找子串T，如果找到返回子串在主串的位置；否则，返回-1*/
{
    int i,j;
    i=pos-1;
    j=0;
    while(i<S.length&&j<T.length)
    {
        if(j==-1||S.str[i]==T.str[j])       /*如果j=-1或当前字符相等，则继续比较后面的字符*/
        {
            i++;
            j++;
        }
        else                        /*如果当前字符不相等，则将模式串向右移动*/
            j=next[j];
    }
    if(j>=T.length)                     /*匹配成功，返回子串在主串中的位置。否则返回-1*/
        return i-T.length+1;
    else
        return -1;
}

求next函数值的算法：

int GetNext(SeqString T,int next[])
/*求模式串T的next函数值并存入数组next*/
{
    int j,k;
    j=0;
    k=-1;
    next[0]=-1;
    while(j<T.length)
    {
        if(k==-1||T.str[j]==T.str[k])       /*如果k=-1或当前字符相等，则继续比较后面的字符并将函数值存入到next数组*/
        {
            j++;
            k++;
            next[j]=k;
        }
        else                        /*如果当前字符不相等，则将模式串向右移动继续比较*/
            k=next[k];
    }
}

求next函数值的算法时间复杂度是O(m)。一般情况下，模式串的长度比主串的长度要小得多，因此对整个字符串的匹配来说，增加这点事件是值得的。

改进的求next函数值的算法：

int GetNextVal(SeqString T,int nextval[])
/*求模式串T的next函数值的修正值并存入数组next*/
{
    int j,k;
    j=0;
    k=-1;
    nextval[0]=-1;
    while(j<T.length)
    {
        if(k==-1||T.str[j]==T.str[k])       /*如果k=-1或当前字符相等，则继续比较后面的字符并将函数值存入到nextval数组*/
        {
            j++;
            k++;
            if(T.str[j]!=T.str[k])          /*如果所求的nextval[j]与已有的nextval[k]不相等，则将k存放在nextval中*/
                nextval[j]=k;
            else
                nextval[j]=nextval[k];
        }
        else                                /*如果当前字符不相等，则将模式串向右移动继续比较*/
            k=nextval[k];
    }
}

三、模式匹配应用举例

编程比较BF算法和KMP算法的效率。例如主串S=“cabaadcabaababaabacabababab”，模式串T=“abaabacababa”，统计BF算法和KMP算法在匹配过程中的比较次数，并输出模式串的next函数值与nextval函数值。

主函数

/*包含头文件*/
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#include"SeqString.h"
/*函数的声明*/
int B_FIndex(SeqString S,int pos,SeqString T,int *count);
int KMP_Index(SeqString S,int pos,SeqString T,int next[],int *count);
int GetNext(SeqString T,int next[]);
int GetNextVal(SeqString T,int nextval[]);
void PrintArray(SeqString T,int next[],int nextval[],int length);
void main()
{
    SeqString S,T;
    int count1=0,count2=0,count3=0,find;
    int next[40],nextval[40];

    StrAssign(&S,"cabaadcabaababaabacabababab");        /*给主串S赋值*/
    StrAssign(&T,"abaabacababa");               /*给模式串T赋值*/
    GetNext(T,next);                    /*将next函数值保存在next数组*/
    GetNextVal(T,nextval);              /*将改进后的next函数值保存在nextval数组*/
    printf("模式串T的next和改进后的next值:\n");
    PrintArray(T,next,nextval,StrLength(T));    /*输出模式串T的next值与nextval值*/
    find=B_FIndex(S,1,T,&count1);               /*传统的模式串匹配*/
    if(find>0)
        printf("BF算法的比较次数为:%2d\n",count1);
    find=KMP_Index(S,1,T,next,&count2);
    if(find>0)
        printf("利用next的KMP算法的比较次数为:%2d\n",count2);
    find=KMP_Index(S,1,T,nextval,&count3);
    if(find>0)
        printf("利用nextval的KMP匹配算法的比较次数为:%2d\n",count3);

    StrAssign(&S,"abccbaaaababcabcbccabcbcabccbcbcb");  /*给主串S赋值*/
    StrAssign(&T,"abcabcbc");                   /*给模式串T赋值*/
    GetNext(T,next);                            /*将next函数值保存在next数组*/
    GetNextVal(T,nextval);                      /*将改进后的next函数值保存在nextval数组*/
    printf("模式串T的next和改进后的next值:\n");
    PrintArray(T,next,nextval,StrLength(T));    /*输出模式串T的next值域nextval值*/
    find=B_FIndex(S,1,T,&count1);               /*传统的模式串匹配*/
    if(find>0)
        printf("BF算法的比较次数为:%2d\n",count1);
    find=KMP_Index(S,1,T,next,&count2);
    if(find>0)
        printf("利用next的KMP算法的比较次数为:%2d\n",count2);
    find=KMP_Index(S,1,T,nextval,&count3);
    if(find>0)
        printf("利用nextval的KMP匹配算法的比较次数为:%2d\n",count3);
}

void PrintArray(SeqString T,int next[],int nextval[],int length)
/*模式串T的next值与nextval值输出函数*/
{
    int j;
    printf("j:\t\t");
    for(j=0;j<length;j++)
        printf("%3d",j);
    printf("\n");
    printf("模式串:\t\t");
    for(j=0;j<length;j++)
        printf("%3c",T.str[j]);
    printf("\n");
    printf("next[j]:\t");
    for(j=0;j<length;j++)
        printf("%3d",next[j]);
    printf("\n");
    printf("nextval[j]:\t");
    for(j=0;j<length;j++)
        printf("%3d",nextval[j]);
    printf("\n");
}

BF算法

int B_FIndex(SeqString S,int pos,SeqString T,int *count)
/*BF模式匹配算法。在主串S中的第pos个位置开始查找子串T，如果找到返回子串在主串的位置；否则，返回-1*/
{
    int i,j;
    i=pos-1;
    j=0;
    *count=0;                       /*count保存主串与模式串的比较次数*/
    while(i<S.length&&j<T.length)
    {
        if(S.str[i]==T.str[j])      /*如果串S和串T中对应位置字符相等，则继续比较下一个字符*/
        {
            i++;
            j++;
        }
        else                    /*如果当前对应位置的字符不相等，则从串S的下一个字符开始，T的第0个字符开始比较*/
        {
            i=i-j+1;
            j=0;
        }
        (*count)++;
    }
    if(j>=T.length)                 /*如果在S中找到串T，则返回子串T在主串S的位置*/
        return i-j+1;
    else
        return -1;
}

KMP算法

int KMP_Index(SeqString S,int pos,SeqString T,int next[],int *count)
/*KMP模式匹配算法。利用模式串T的next函数在主串S中的第pos个位置开始查找子串T，如果找到返回子串在主串的位置；否则，返回-1*/
{
    int i,j;
    i=pos-1;
    j=0;
    *count=0;                               /*count保存主串与模式串的比较次数*/
    while(i<S.length&&j<T.length)
    {
        if(j==-1||S.str[i]==T.str[j])       /*如果j=-1或当前字符相等，则继续比较后面的字符*/
        {
            i++;
            j++;
        }
        else                        /*如果当前字符不相等，则将模式串向右移动*/
            j=next[j];
        (*count)++;
    }
    if(j>=T.length)                     /*匹配成功，返回子串在主串中的位置。否则返回-1*/
        return i-T.length+1;
    else
        return -1;
}
int GetNext(SeqString T,int next[])
/*求模式串T的next函数值并存入数组next*/
{
    int j,k;
    j=0;
    k=-1;
    next[0]=-1;
    while(j<T.length)
    {
        if(k==-1||T.str[j]==T.str[k])       /*如果k=-1或当前字符相等，则继续比较后面的字符并将函数值存入到next数组*/
        {
            j++;
            k++;
            next[j]=k;
        }
        else                        /*如果当前字符不相等，则将模式串向右移动继续比较*/
            k=next[k];
    }
}
int GetNextVal(SeqString T,int nextval[])
/*求模式串T的next函数值的修正值并存入数组next*/
{
    int j,k;
    j=0;
    k=-1;
    nextval[0]=-1;
    while(j<T.length)
    {
        if(k==-1||T.str[j]==T.str[k])       /*如果k=-1或当前字符相等，则继续比较后面的字符并将函数值存入到nextval数组*/
        {
            j++;
            k++;
            if(T.str[j]!=T.str[k])          /*如果所求的nextval[j]与已有的nextval[k]不相等，则将k存放在nextval中*/
                nextval[j]=k;
            else
                nextval[j]=nextval[k];
        }
        else                                /*如果当前字符不相等，则将模式串向右移动继续比较*/
            k=nextval[k];
    }
}

朴素的BF算法也是常用的算法，毕竟它不需要计算next函数值。KMP算法在模式串与主串存在许多部分匹配的情况下，其优越性才会显示出来。

测试结果

【笔记】串的模式匹配算法

相关标签： BF算法 KMP算法模式匹配字符串匹配模式匹配算法的实现

上一篇：新手thinkphp应该如何学

下一篇： PHP持久连接mysql_pconnect()函数使用介绍_php技巧

【笔记】串的模式匹配算法

一、BF算法

1.BF算法思想

2.BF算法实现（C语言）

二、KMP算法

1.KMP算法思想

2.next函数的算法

3.KMP算法的实现（C语言）

三、模式匹配应用举例

HeadFirst设计模式中的笔记

PHP的preg_match匹配字符串长度问题解决方法

解析PHP中的正则表达式以及模式匹配_PHP

求补救匹配PHP字符串中的cookie

PHP正则表达式匹配字符串中的指定标签_PHP教程

PHP正则表达式匹配字符串中的指定标签

[PHP] 算法-将一个字符串转换成一个整数的PHP实现

正则匹配模式修正符小写u的问题 php

字符串之模式匹配

求助：php怎样通过匹配表单名的部分字符串来获取相应表单的值？

【笔记】串的模式匹配算法

一、BF算法

1.BF算法思想

2.BF算法实现（C语言）

二、KMP算法

1.KMP算法思想

2.next函数的算法

3.KMP算法的实现（C语言）

三、模式匹配应用举例

HeadFirst设计模式中的笔记

PHP的preg_match匹配字符串长度问题解决方法

解析PHP中的正则表达式以及模式匹配_PHP

求补救匹配PHP字符串中的cookie

PHP正则表达式匹配字符串中的指定标签_PHP教程

PHP正则表达式匹配字符串中的指定标签

[PHP] 算法-将一个字符串转换成一个整数的PHP实现

正则匹配 模式修正符 小写u的问题 php

字符串之模式匹配

求助：php怎样通过匹配表单名的部分字符串来获取相应表单的值？

正则匹配模式修正符小写u的问题 php