php 正则表达式捕获组与非捕获组
我们知道,在正则表达式下(x) 表示匹配'x'并记录匹配的值。这只是比较通俗的说法,甚至说这是不严谨的说法,只有()捕获组形式才会记录匹配的值。非捕获组则只匹配,不记录。
捕获组:
(pattern)
这种形式是我们见到最多的一种形式,匹配并返回捕获结果,可以嵌套,组号顺序从左到右依次排列‘。
$regex = '/(ab(c)+)+d(e)?/'; $str = 'abccde'; $matches = array(); if(preg_match($regex, $str, $matches)){ print_r($matches); }
匹配结果:
Array ( [0] => abccde [1] => abcc [2] => c [3] => e )
(?Pname>pattern)
这种方式虽然看起来在构造正则表达式的时候略微复杂一点,但实质上与(pattern)一样。最大的优势体现在对结果处理上,程序员可以直接根据自己设置的
$regex = '/(?P\w(?P \w))abc(?P \w)45/'; $str = 'fsabcd45'; $matches = array(); if(preg_match($regex, $str, $matches)){ print_r($matches); }
匹配结果:
Array ( [0] => fsabcd45 [group1] => fs [1] => fs [group2] => s [2] => s [group3] => d [3] => d )
\num
num是一个整数,是对捕获组的反向引用。 例如\2表示第二个子组匹配值,\表示第一个子组匹配值
$regex = '/(\w)(\w)\2\1/'; $str = 'abba'; $matches = array(); if(preg_match($regex, $str, $matches)){ print_r($matches); }
匹配结果:
Array ( [0] => abba [1] => a [2] => b )
注意,这里我疏忽了一个小细节,一开始我第一样代码是 $regex = “/(\w)(\w)\2\1/”; 结果返回无匹配结果,经过调试后,发现这里只能用' '。'与" 用法差别大家还是需要注意下。
\k name >
了解了(?Pname>pattern)与\num,这个就不难理解了。\k是对命名捕获组的反向引用。其中 name 是捕获组名。
$regex='/(?P\w)abc\k /'; $str="fabcf"; echopreg_match_all($regex, $str,$matches); print_r($matches);
匹配结果:
Array ( [0] => Array ( [0] => fabcf ) [name] => Array ( [0] => f ) [1] => Array ( [0] => f ) )
非捕获组:
(?:pattern)
与(pattern)的唯一区别是,匹配pattern但不捕获匹配结果。这里便不再举例。
还有四种方式实际上讲的是一个事情:预查。
预查分为正向预查与反向预查。根据字面理解,正向预查是判断匹配字符串后面某些字符存在与否,而反向预查则是判断匹配字符串前面某些字符存在与否。
正向预查判断存在使用(?=pattern),判断不存在使用(?!pattern)。
反向预查判断存在使用(?pattern),判断不存在使用(?pattern)。
$regx='/(?;