欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  后端开发

这段php正则表达式preg_match为什么有时候会return false?

程序员文章站 2022-03-27 16:40:58
...
如题:
echo var_dump(preg_match('/^(([a-zA-Z0-9]+\-?)+[a-zA-Z0-9]+\.)+[a-zA-Z]+$/i','lo-n.l-on.loh-4va.ccccc5om'));//return 0
echo var_dump(preg_match('/^(([a-zA-Z0-9]+\-?)+[a-zA-Z0-9]+\.)+[a-zA-Z]+$/i','lo-n.l-on.loh-4va.cccccom'));//return 1
echo var_dump(preg_match('/^(([a-zA-Z0-9]+\-?)+[a-zA-Z0-9]+\.)+[a-zA-Z]+$/i','lon.lon.lon.loh4va.cccc5com'));//return false
echo var_dump(preg_match('/^(([a-zA-Z0-9]+\-?)+[a-zA-Z0-9]+\.)+[a-zA-Z]+$/i','lon.lon.lon.loh4va.cccccom'));//return 1

回复内容:

如题:

echo var_dump(preg_match('/^(([a-zA-Z0-9]+\-?)+[a-zA-Z0-9]+\.)+[a-zA-Z]+$/i','lo-n.l-on.loh-4va.ccccc5om'));//return 0
echo var_dump(preg_match('/^(([a-zA-Z0-9]+\-?)+[a-zA-Z0-9]+\.)+[a-zA-Z]+$/i','lo-n.l-on.loh-4va.cccccom'));//return 1
echo var_dump(preg_match('/^(([a-zA-Z0-9]+\-?)+[a-zA-Z0-9]+\.)+[a-zA-Z]+$/i','lon.lon.lon.loh4va.cccc5com'));//return false
echo var_dump(preg_match('/^(([a-zA-Z0-9]+\-?)+[a-zA-Z0-9]+\.)+[a-zA-Z]+$/i','lon.lon.lon.loh4va.cccccom'));//return 1

看代码你只是过滤。int(0)代表没匹配到,int(1)是匹配成功。

帮你改一下代码吧,分组捕获不能乱用,正则书写要简洁,还要尽量提高运行效率,还不能存储无谓的变量。要搞懂正则引擎的回溯原理才能明白自己在干什么。

更初级一点的知识,你至少要了解贪婪匹配和非贪婪匹配匹配原理和运行效率的差异。

原:

preg_match('/^(([a-zA-Z0-9]+\-?)+[a-zA-Z0-9]+\.)+[a-zA-Z]+$/i','lo-n.l-on.loh-4va.ccccc5om');

改:

preg_match('/^(?:(?:\w+\.?\w+)-?){4}$/', 'lo-n.l-on.loh-4va.ccccc5om'); 

我以题主的问题来分析一下。

以题主的第一段代码为例:

preg_match('/^(([a-zA-Z0-9]+\-?)+[a-zA-Z0-9]+\.)+[a-zA-Z]+$/i','lo-n.l-on.loh-4va.ccccc5om')

这段php正则表达式preg_match为什么有时候会return false?

共花费74781步, 7万多步!
改成我上面修改后的

preg_match('/^(?:(?:\w+\.?\w+)-?){4}$/', 'lo-n.l-on.loh-4va.ccccc5om');

后:

这段php正则表达式preg_match为什么有时候会return false?

只需要34步。

分析一下匹配过程.
题主的:

这段php正则表达式preg_match为什么有时候会return false?

修改后的匹配步骤:

这段php正则表达式preg_match为什么有时候会return false?

74781步 : 34 步 约等于2200%, 效率真的是天壤之别.

----补充于dec 29 ---
关于正则的学习:
我是在learning perl里详细研究过。个人觉得用好正则主要需要遵循下面几点:
1 分清什么时候用贪婪匹配、非贪婪匹配
2 尽量用锚位符
3 能分组的尽量分组
4 元字符与其枚举不如反向过滤和概括,如,[a-zA-Z0-9]+不如w+,某些特定场景里,w+不如1+,如果再加上锚位符(b锚单词,?= ?>, ?!正反向预搜索), 那就更快了. 所谓量词嵌套,就是不该用贪婪匹配(+*的时候就尽量少用,这样能极大程度上减少backtrack,也就是回溯次数。
更感性的认识,我要找出10亿个排成一排里的人里男性,你直接告诉我最明显的一个过几个特征就行了,比如那两棵相距100万平方公里里的一排都是男性,没必要告诉我100个特征让我一个一个去核对。

以上。


  1. -s ↩

http://php.net/manual/zh/func...

preg_match()返回 pattern 的匹配次数。 它的值将是0次(不匹配)或1次,因为preg_match()在第一次匹配后 将会停止搜索。preg_match_all()不同于此,它会一直搜索subject 直到到达结尾。 如果发生错误preg_match()返回 FALSE。

相关标签: php 正则表达式