POSIX 风格和兼容 Perl 风格两种正则表达式主要函数的类比(preg_match, preg_replace, ereg, ereg_replace)

程序员文章站 2023-10-17 22:13:15

首先来看看 posix 风格正则表达式的两个主要函数： ereg 函数：（正则表达式匹配）格式：int ereg ( string pattern, string str...

首先来看看 posix 风格正则表达式的两个主要函数：

ereg 函数：（正则表达式匹配）

格式：int ereg ( string pattern, string string [, array &regs] )
注意：使用 perl 兼容正则表达式语法的 preg_match() 函数通常是比 ereg() 更快的替代方案。（一般的话还是使用 preg_match() ，比较好勒~~）

以区分大小写的方式在 string 中寻找与给定的正则表达式 pattern 所匹配的子串。如果找到与 pattern 中圆括号内的子模式相匹配的子串并且函数调用给出了第三个参数 regs，则匹配项将被存入 regs 数组中。$regs[1] 包含第一个左圆括号开始的子串，$regs[2] 包含第二个子串，以此类推。$regs[0] 包含整个匹配的字符串。

返回值：如果在 string 中找到 pattern 模式的匹配则返回所匹配字符串的长度，如果没有找到匹配或出错则返回 false。如果没有传递入可选参数 regs 或者所匹配的字符串长度为 0，则本函数返回 1。

来看看 ereg() 函数的例子：

以下代码片断接受 iso 格式的日期（yyyy-mm-dd）然后以 dd.mm.yyyy 格式显示：

复制代码代码如下:

 
<?php 
if (ereg ("([0-9]{4})-([0-9]{1,2})-([0-9]{1,2})", $date, $regs)) { 
echo "$regs[3].$regs[2].$regs[1]"; 
} else { 
echo "invalid date format: $date"; 
} 
?> 

-----------------------------------------------------------------------------------
ereg_replace 函数：（正则表达式替换）

格式：string ereg_replace ( string pattern, string replacement, string string )
函数说明：
本函数在 string 中扫描与 pattern 匹配的部分，并将其替换为 replacement。
返回替换后的字符串。（如果没有可供替换的匹配项则会返回原字符串。）
如果 pattern 包含有括号内的子串，则 replacement 可以包含形如 \\digit 的子串，这些子串将被替换为数字表示的第几个括号内的子串；\\0 则包含了字符串的整个内容。最多可以用九个子串。括号可以嵌套，此情形下以左圆括号来计算顺序。
如果未在 string 中找到匹配项，则 string 将原样返回。
来看看这个函数例子吧：
１，下面的代码片断输出 "this was a test" 三次：

复制代码代码如下:

 
<?php 
$string = "this is a test"; 
echo str_replace(" is", " was", $string); 
echo ereg_replace("( )is", "\\1was", $string); 
echo ereg_replace("(( )is)", "\\2was", $string); 
?> 

要注意的一点是如果在 replacement 参数中使用了整数值，则可能得不到所期望的结果。这是因为ereg_replace() 将把数字作为字符的序列值来解释并应用之。例如：
2，replacement 参数为整数时的例子：

复制代码代码如下:

 
<?php 
/* 不能产生出期望的结果 */ 
$num = 4; 
$string = "this string has four words."; 
$string = ereg_replace('four', $num, $string); 
echo $string; /* output: 'this string has words.' */ 
/* 本例工作正常 */ 
$num = '4'; 
$string = "this string has four words."; 
$string = ereg_replace('four', $num, $string); 
echo $string; /* output: 'this string has 4 words.' */ 
?> 

3，将 url 替换为超链接：

复制代码代码如下:

$text = ereg_replace("[[:alpha:]]+://[^<>[:space:]]+[[:alnum:]/]", 
"<a href=\"\\0\">\\0</a>", $text); 

提示: preg_replace() 函数使用了 perl 兼容正则表达式语法，通常是比 ereg_replace() 更快的替代方案。
再来看看 perl 兼容正则表达式的两个主要函数：
preg_match 函数：（进行正则表达式匹配）
格式：int preg_match ( string pattern, string subject [, array matches [, int flags]] )
函数说明：
在 subject 字符串中搜索与 pattern 给出的正则表达式相匹配的内容。
如果提供了 matches，则其会被搜索的结果所填充。$matches[0] 将包含与整个模式匹配的文本，$matches[1] 将包含与第一个捕获的括号中的子模式所匹配的文本，以此类推。
flags 可以是下列标记：
preg_offset_capture
如果设定本标记，对每个出现的匹配结果也同时返回其附属的字符串偏移量。注意这改变了返回的数组的值，使其中的每个单元也是一个数组，其中第一项为匹配字符串，第二项为其偏移量。本标记自 php 4.3.0 起可用。
flags 参数自 php 4.3.0 起可用。
preg_match() 返回 pattern 所匹配的次数。要么是 0 次（没有匹配）或 1 次，因为 preg_match() 在第一次匹配之后将停止搜索。preg_match_all() 则相反，会一直搜索到 subject 的结尾处。如果出错 preg_match() 返回 false。
tips: 如果只想查看一个字符串是否包含在另一个字符串中，不要用 preg_match()。可以用 strpos() 或 strstr() 替代，要快得多。
来看看它的例子吧：
例 1. 在文本中搜索“php”：

复制代码代码如下:

 
<?php 
// 模式定界符后面的 "i" 表示不区分大小写字母的搜索 
if (preg_match ("/php/i", "php is the web scripting language of choice.")) { 
print "a match was found."; 
} else { 
print "a match was not found."; 
} 
?> 

例 2. 搜索单词“web”：

复制代码代码如下:

 
<?php 
/* 模式中的 \b 表示单词的边界，因此只有独立的 "web" 单词会被匹配， 
* 而不会匹配例如 "webbing" 或 "cobweb" 中的一部分 */ 
if (preg_match ("/\bweb\b/i", "php is the web scripting language of choice.")) { 
print "a match was found."; 
} else { 
print "a match was not found."; 
} 
if (preg_match ("/\bweb\b/i", "php is the website scripting language of choice.")) { 
print "a match was found."; 
} else { 
print "a match was not found."; 
} 
?> 

例 3. 从 url 中取出域名：

复制代码代码如下:

 
<?php 
// 从 url 中取得主机名 
preg_match("/^(http:\/\/)?([^\/]+)/i", 
"http://www.php.net/index.html", $matches); 
$host = $matches[2]; 
// 从主机名中取得后面两段 
preg_match("/[^\.\/]+\.[^\.\/]+$/", $host, $matches); 
echo "domain name is: {$matches[0]}\n"; 
?> 

本例将输出：
domain name is: php.net
-----------------------------------------------------------------------------------
preg_replace 函数：（执行正则表达式的搜索和替换）
格式：mixed preg_replace ( mixed pattern, mixed replacement, mixed subject [, int limit] )
函数说明：
在 subject 中搜索 pattern 模式的匹配项并替换为 replacement。如果指定了 limit，则仅替换 limit 个匹配，如果省略 limit 或者其值为 -1，则所有的匹配项都会被替换。
replacement 可以包含 \\n 形式或（自 php 4.0.4 起）$n 形式的逆向引用，首选使用后者。每个此种引用将被替换为与第 n 个被捕获的括号内的子模式所匹配的文本。n 可以从 0 到 99，其中 \\0 或 $0 指的是被整个模式所匹配的文本。对左圆括号从左到右计数（从 1 开始）以取得子模式的数目。
对替换模式在一个逆向引用后面紧接着一个数字时（即：紧接在一个匹配的模式后面的数字），不能使用熟悉的 \\1 符号来表示逆向引用。举例说 \\11，将会使 preg_replace() 搞不清楚是想要一个 \\1 的逆向引用后面跟着一个数字 1 还是一个 \\11 的逆向引用。本例中的解决方法是使用 \${1}1。这会形成一个隔离的 $1 逆向引用，而使另一个 1 只是单纯的文字。
来看看它的例子：
例 1. 逆向引用后面紧接着数字的用法：

复制代码代码如下:

 
<?php 
$string = "april 15, 2003"; 
$pattern = "/(\w+) (\d+), (\d+)/i"; 
$replacement = "\${1}1,\$3"; 
print preg_replace($pattern, $replacement, $string); 
/* output 
====== 
april1,2003 
*/ 
?> 

如果搜索到匹配项，则会返回被替换后的 subject，否则返回原来不变的 subject。
preg_replace() 的每个参数（除了 limit）都可以是一个数组。如果 pattern 和 replacement 都是数组，将以其键名在数组中出现的顺序来进行处理。这不一定和索引的数字顺序相同。如果使用索引来标识哪个 pattern 将被哪个 replacement 来替换，应该在调用 preg_replace() 之前用 ksort() 对数组进行排序。
例 2. 在 preg_replace() 中使用索引数组：

复制代码代码如下:

 
<?php 
$string = "the quick brown fox jumped over the lazy dog."; 
$patterns[0] = "/quick/"; 
$patterns[1] = "/brown/"; 
$patterns[2] = "/fox/"; 
$replacements[2] = "bear"; 
$replacements[1] = "black"; 
$replacements[0] = "slow"; 
print preg_replace($patterns, $replacements, $string); 
/* output 
====== 
the bear black slow jumped over the lazy dog. 
*/ 
/* by ksorting patterns and replacements, 
we should get what we wanted. */ 
ksort($patterns); 
ksort($replacements); 
print preg_replace($patterns, $replacements, $string); 
/* output 
====== 
the slow black bear jumped over the lazy dog. 
*/ 
?> 

如果 subject 是个数组，则会对 subject 中的每个项目执行搜索和替换，并返回一个数组。
如果 pattern 和 replacement 都是数组，则 preg_replace() 会依次从中分别取出值来对 subject 进行搜索和替换。如果 replacement 中的值比 pattern 中的少，则用空字符串作为余下的替换值。如果 pattern 是数组而 replacement 是字符串，则对 pattern 中的每个值都用此字符串作为替换值。反过来则没有意义了。
/e 修正符使 preg_replace() 将 replacement 参数当作 php 代码（在适当的逆向引用替换完之后）。提示：要确保 replacement 构成一个合法的 php 代码字符串，否则 php 会在报告在包含 preg_replace() 的行中出现语法解析错误。
例 3. 替换数个值：

复制代码代码如下:

 
<?php 
$patterns = array ("/(19|20)(\d{2})-(\d{1,2})-(\d{1,2})/", 
"/^\s*{(\w+)}\s*=/"); 
$replace = array ("\\3/\\4/\\1\\2", "$\\1 ="); 
print preg_replace ($patterns, $replace, "{startdate} = 1999-5-27"); 
?> 

本例将输出：
$startdate = 5/27/1999
例 4. 使用 /e 修正符：

复制代码代码如下:

 
<?php 
preg_replace ("/(<\/?)(\w+)([^>]*>)/e", 
"'\\1'.strtoupper('\\2').'\\3'", 
$html_body); 
?> 

这将使输入字符串中的所有 html 标记变成大写。
例 5. 将 html 转换成文本：

复制代码代码如下:

 
<?php 
// $document 应包含一个 html 文档。 
// 本例将去掉 html 标记，javascript 代码 
// 和空白字符。还会将一些通用的 
// html 实体转换成相应的文本。 
$search = array ("'<script[^>]*?>.*?</script>'si", // 去掉 javascript 
"'<[\/\!]*?[^<>]*?>'si", // 去掉 html 标记 
"'([\r\n])[\s]+'", // 去掉空白字符 
"'&(quot|#34);'i", // 替换 html 实体 
"'&(amp|#38);'i", 
"'&(lt|#60);'i", 
"'&(gt|#62);'i", 
"'&(nbsp|#160);'i", 
"'&(iexcl|#161);'i", 
"'&(cent|#162);'i", 
"'&(pound|#163);'i", 
"'&(copy|#169);'i", 
"'(\d+);'e"); // 作为 php 代码运行 
$replace = array ("", 
"", 
"\\1", 
"\"", 
"&", 
"<", 
">", 
" ", 
chr(161), 
chr(162), 
chr(163), 
chr(169), 
"chr(\\1)"); 
$text = preg_replace ($search, $replace, $document); 
?> 

the end…

上一篇：在Python中使用next()方法操作文件的教程

下一篇：简单介绍Python中的readline()方法的使用

POSIX 风格和兼容 Perl 风格两种正则表达式主要函数的类比(preg_match, preg_replace, ereg, ereg_replace)

POSIX 风格和兼容 Perl 风格两种正则表达式主要函数的类比(preg_match, preg_replace, ereg, ereg_replace)

POSIX 风格和兼容 Perl 风格两种正则表达式主要函数的类比(preg_match, preg_replace,

POSIX 风格和兼容 Perl 风格两种正则表达式主要函数的类比(preg_match, preg_replace,_PHP教程

POSIX 风格和兼容 Perl 风格两种正则表达式主要函数的类比preg_match, preg_replace, ereg, ereg_replace

【面试题】请对 POSIX 风格和兼容 Perl 风格两种正则表达式的主要函数进行类比说明

POSIX 风格和兼容 Perl 风格两种正则表达式主要函数的类比preg_match, preg_replace, ereg, ereg_replace

POSIX 风格和兼容 Perl 风格两种正则表达式主要函数的类比(preg_match, preg_replace, ereg, ereg_replace)_php技巧

POSIX 风格和兼容 Perl 风格两种正则表达式主要函数的类比(preg_match, preg_replace, ereg, ereg_replace)_php技巧