【代码】PHP 分析函数similar
程序员文章站
2022-05-23 08:05:30
...
PHP 有个计算两个字符串相度的函数similar_text(),可以得出一个百分比来表示两个字符串的相程度。效果如下: 1similar_text('aaaa', 'aaaa', $percent);2var_dump($percent);3//float(100)4similar_text('aaaa', 'aaaabbbb', $percent);5var_dump($percent)
PHP有个计算两个字符串相似度的函数similar_text(),可以得出一个百分比来表示两个字符串的相似程度。效果如下:
1 similar_text('aaaa', 'aaaa', $percent); 2 var_dump($percent); 3 //float(100) 4 similar_text('aaaa', 'aaaabbbb', $percent); 5 var_dump($percent); 6 //float(66.666666666667) 7 similar_text('abcdef', 'aabcdefg', $percent); 8 var_dump($percent); 9 //float(85.714285714286)
利用这个函数,可以用来做模糊搜索的功能,或者其他需要模糊匹配的功能。最近我在验证码识别研究中的特征匹配一步上涉及到了这个函数。
但这个函数具体使用了怎样的算法呢?我研究了他的底层实现,总结为三步:
(1)找出两个字符串中相同部分最长的一段;
(2)再用同样的方法在剩下的两段中分别找出相同部分最长的一段,以此类推,直到没有任何相同部分;
(3)相似度 = 所有相同部分的长度之和 * 2 / 两个字符串的长度之和;
我研究的源代码版本是PHP 5.4.6,相关的代码位于文件php-5.4.6/ext/standard/string.c的第2951~3031行。以下是我加过注释后源代码。
01 //找出两个字符串中相同部分最长的一段 02 static void php_similar_str(const char *txt1, int len1, const char *txt2, int len2, int *pos1, int *pos2, int *max) 03 { 04 char *p, *q; 05 char *end1 = (char *) txt1 + len1; 06 char *end2 = (char *) txt2 + len2; 07 int l; 08 09 *max = 0; 10 //以第一个字符串为基准开始遍历 11 for (p = (char *) txt1; p *max) { 18 *max = l; 19 *pos1 = p - txt1; 20 *pos2 = q - txt2; 21 } 22 } 23 } 24 } 25 26 //计算两个字符串的相同部分的总长度 27 static int php_similar_char(const char *txt1, int len1, const char *txt2, int len2) 28 { 29 int sum; 30 int pos1, pos2, max; 31 32 //找出两个字符串相同部分最长的一段 33 php_similar_str(txt1, len1, txt2, len2, &pos1, &pos2, &max); 34 //这里是对sum的初始赋值,也是对max值的判断 35 //如果max为零,表示两个字符串没有任何相同的字符,也就会跳出if 36 if ((sum = max)) { 37 //对前半段递归,相同段长度累加 38 if (pos1 && pos2) { 39 sum += php_similar_char(txt1, pos1, 40 txt2, pos2); 41 } 42 //对后半段递归,相同段长度累加 43 if ((pos1 + max 2) { 68 convert_to_double_ex(percent); 69 } 70 71 //如果两个字符串长度都为0,返回0 72 if (t1_len + t2_len == 0) { 73 if (ac > 2) { 74 Z_DVAL_PP(percent) = 0; 75 } 76 77 RETURN_LONG(0); 78 } 79 80 //调用上面的函数,计算两个字符串的相似度 81 sim = php_similar_char(t1, t1_len, t2, t2_len); 82 83 //可以看到percent的计算公式 84 if (ac > 2) { 85 Z_DVAL_PP(percent) = sim * 200.0 / (t1_len + t2_len); 86 } 87 88 RETURN_LONG(sim); 89 }
另外,PHP还提供了另外一个计算字符串相似度的函数levenshtein(),通过计算两个字符串的编辑距离来表示字符串相似度,这也是一种很常见的算法。levenshtein()的性能相比similar_text()要好一些,因为通过前面的代码分析可以看到,similar_text()的复杂度是O(n^3),n表示最长字符串的长度,而levenshtein()的复杂度为O(m*n),m与n分别为两个字符串的长度。
以上是本文关于PHP 分析函数similar_text()的原理,希望本文对广大php开发者有所帮助,感谢阅读本文。更多有关php技术问题欢迎加群探讨:304224365 ,验证码:csl,不写验证不予通过。
上一篇: react脚手架使用步骤详解
下一篇: PHP学习笔记(5)
推荐阅读
-
PHP抓屏函数实现屏幕快照代码分享
-
PHP中array_keys和array_unique函数源码的分析
-
php使用strtotime和date函数判断日期是否有效代码分享
-
分享PHP函数实现数字与文字分页代码
-
php分页函数示例代码分享
-
PHP 源代码分析 Zend HashTable详解第1/3页
-
php对图像的各种处理函数代码小结
-
PHP call_user_func和call_user_func_array函数的简单理解与应用分析
-
php截取字符串函数substr,iconv_substr,mb_substr示例以及优劣分析
-
php number_format() 函数通过千位分组来格式化数字的实现代码