如何在PHP中使用正则表达式(1)
几年前,我对 Web 表单的输入框做了一些有趣的检验。用户将在此表单中输入电话号码。随后,此电话号码会按用户键入的形式打印在用户的广告中。按照要求,美国的电话号码可以几种方式输入:可以是 (555) 555-5555,也可以是 555-555-5555,但不能接受 555-5555 这样的形式。
您或许会感到奇怪,为什么我们不抛开所有的非数字字符,只保证剩余的字符总数为 10 呢?这种方法确实可行,但无法阻止用户输入 !555?333-3333 这样的内容。
以一名 Web 开发者的眼光来看,这种情况带来了一项有趣的挑战。我可以编写例程来检查各种不同格式,但我希望能够找到一种解决方案,假如用户随后认可 555.555.5555 这样的格式,这种解决方案能具备一定的灵活性。
这正是正则表达式(简称为 regex)的适用场景。之前我已经将它们剪切并粘贴到了应用程序中,但从未发现任何难以理解的语法问题。Regex 看上去非常像数学表达式。当您看到一个形如 2x2=4 的表达式时,您通常会想到 “2 乘以 2 等于 4”。正则表达式与之非常类似。阅读过本文后,当您看到一个这样的正则表达式 ^b$ 时,您就会告诉自己:“一行的开头是 b,随后就是行尾”。不仅如此,您还会意识到在 PHP 中使用正则表达式有多么简单。
使用 regex 的时机
在有规则可循时,您应使用 regex 来完成搜索和替换操作,但不必具有需要找到或替换的确切字符。举例来说,在上文中提到的电话号码的例子中,用户定义了表明所输入电话号码的格式的规则,但并未定义电话号码中所包含的数字。这同样适用于有大批用户输入的场景。美国州名缩写可限制为两个从 A 到 Z 的大写字母。这里也可使用正则表达式,您可简单地将表单中的文本或用户输入限制为字母表中的字母,而无需考虑大小写和长度问题。
不宜使用 regex 的时机
正则表达式功能强大,但也有一些缺陷。其中之一就是要求具备读写表达式的相关技能。如果您决定在应用程序中包含正则表达式,就应该对其进行完整的注释。这样,此后如果有其他人需要更改表达式,即可在不中断功能的情况下完成更改。另外,如果您对于使用正则表达式不够熟悉,可能会发现它们难于调试。
为避免出现这些难题,在更简单的内置功能足以很好地解决问题时不要使用正则表达式。
POSIX 与 PCRE
PHP 支持两种正则表达式的实现:Portable Operating System Implementation(POSIX)和 Perl-Compatible Regular Expression(PCRE)。这两种实现提供了不同的特性,但它们在 PHP 中使用起来一样简单。您所使用的 regex 风格取决于您过去在 regex 使用方面的经验和使用习惯。有一些证据表明,PCRE 表达式的速度比 POSIX 表达式要略微快一点,但在绝大多数应用程序中,这一差别体现得不是那么明显。
在本文的示例中,各 regex 方法的语法都包含在注释中。在函数语法中,regex 为 regex 参数,所搜索的字符串为 string。括号中的参数是可选的,由于本教程主要介绍基础内容,故不会给出全部可选参数的介绍。
1
推荐阅读