C#计算字符串相似性的方法

程序员文章站 2023-12-09 20:11:39

本文实例讲述了c#计算字符串相似性的方法。分享给大家供大家参考。具体如下：计算字符串相似性的办法很多，甚至最笨的办法可以挨个匹配，这里要讲的是使用莱文史特距离来计算字符...

本文实例讲述了c#计算字符串相似性的方法。分享给大家供大家参考。具体如下：

计算字符串相似性的办法很多，甚至最笨的办法可以挨个匹配，这里要讲的是使用莱文史特距离来计算字符串相似性。
莱文史特距离概念:假设函数名是ld

用于计算两个字符串之间的相似度。譬如有两个字符串a和b。假设以a为基准，那么该算法就是计算把b通过（替换、删除、加字符）等方法变成a需要多少步。

例如：
a=”abcd”, b=”abc”, 那么 ld(a,b)=1，只需在b字符串中插入一个字符那么就完全等于a
a=”abcd”, b=”abcd”, 那么 ld(a,b)= ，因为这两个货完全相同
a=”abcd”, b=”abdc”, 那么 ld(a,b)= 1，因为只需把b中”dc”互换位置就等于a了。
a=”fwegwegweg@#2″, b=”ddd*&&%^&”, 那么 ld(a,b)= ????，这个叔真不知道了，要用程序算了。
莱文史特距离计算出来的值越大代表步骤越多，说明两个字符串的相似程度越低。

譬如大家要做个简易的“文章抄袭”判定功能，那么用这个莱文史特距离完全可以实现个初步方法。

算法注释:
1、假设字符串str1的长度为 n，str2 的长度为 m。
如果 n = 0，则返回 m并退出；(这是句废话)
2、如果 m=0，则返回 n 并退出。(这依然是句废话)
3、如果上述都不是则要开始进行计算，

构建一个数组 d[0..m, 0..n]。
将第0行初始化为 0..n，第0列初始化为0..m。
依次检查 str1 的每个字母(i=1..n)。
依次检查 str2 的每个字母(j=1..m)。
如果 str1[i]=str2[j]，则 sign=0；(sign仅仅是个标记，没有任何意思，为了记录相等还是不相等)
如果 str1[i]!=str12[j]，则 sign=1。
将 d[i,j] 设置为以下三个值中的最小值：
紧邻当前格上方的格的值加一，即 d[i-1,j]+1
紧邻当前格左方的格的值加一，即 d[i,j-1]+1
当前格左上方的格的值加sign，即 d[i-1,j-1]+sign
重复上述几步直到循环结束。d[n,m]既为最终的值

接下来是用c#写的一款莱文史特距离的实现。

public class ldmaker//搞成一个类看起来专业，
 //实际上就是脱裤子放屁，这里使用来文史特距离算法
 //用于计算字符串之间的相似性
  {
    char[] str1;
    char[] str2;
    public ldmaker(string s1, string s2)
    {
  //替换掉 所有 数字 为固定数字 数字干扰 太严重
  //这里因人而异，在中文文章的匹配中，数字是干扰很严重
  //的，所以我在某些应用中把数字替换掉了。
  //原因是有的文章之间实际上相似性很高，但是故意在里面加一些数字
  //干扰该函数的执行，让机器看出来两篇文章很不同。一般不需要做如下
  // 步骤
  s1=system.text.regularexpressions.regex.replace(s1,@"(\d+)","1");
  s2 = system.text.regularexpressions.regex.replace(s2, @"(\d+)", "1");
  str1 = s1.tochararray();
  str2 = s2.tochararray();
}
public int getld()//这是莱文史特距离的算法实现
{
  try
  {
    int m=str1.length;
    int n=str2.length;
    int[,] d = new int[m+1, n+1];
    for (int i = 0; i <= m ; i++)
      d[i, 0] = i;
    for (int i = 0; i <= n ; i++)
      d[0, i] = i;
    for (int i = 1; i <= m; i++)
    {
      for (int j = 1; j <= n; j++)
      {
      d[i,j] = d[i - 1,j - 1] + (str1[i - 1] == str2[j - 1] ? 0 : 1);
      //修改一个字符
       d[i,j] = math.min(d[i,j], d[i - 1,j] + 1);
      // 插入一个字符串 
      d[i,j] = math.min(d[i,j], d[i,j - 1] + 1); 
      //删除一个字符 
      } 
    } 
    return d[m, n];
    } catch(//出错返回一个很大值
    { 
      return 10000;
    }
   } 
}

希望本文所述对大家的c#程序设计有所帮助。

上一篇：索尼PS4/PS Vita游戏机正式入华 PS4售2899元

C#计算字符串相似性的方法

C#计算字符串相似性的方法

C#简单生成缩略图的方法

C#生成DLL文件的方法

C#实现对字符串进行大小写切换的方法

C#自适应合并文件的方法

C#动态生成PictureBox并指定图片的方法

C#文件分割的方法

Android编程计算函数时间戳的相关方法总结

C#检测远程计算机端口是否打开的方法

C#窗体显示留言时间的方法