欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

php用正则表达式匹配URL的简单方法

程序员文章站 2023-11-24 23:49:16
在php的官网上看到的parse_url()函数的替代方案。结果和parse_url()函数差不多,是使用正则实现的。uri 是 web上可用的每种资源 - html文档、...

在php的官网上看到的parse_url()函数的替代方案。结果和parse_url()函数差不多,是使用正则实现的。uri 是 web上可用的每种资源 - html文档、图像、视频片段、程序等 - 由一个通用资源标志符(uniform resource identifier, 简称"uri")进行定位。 对象分组:

复制代码 代码如下:

^(([^:/?#]+):)?(//([^/?#]*))?([^?#]*)(\?([^#]*))?(#(.*))?
12            3  4       

测试代码如下:
复制代码 代码如下:

<?php
$search = '~^(([^:/?#]+):)?(//([^/?#]*))?([^?#]*)(\?([^#]*))?(#(.*))?~i';
$url = '//www.jb51.net/pub/ietf/uri/#gonn';
$url = trim($url);
preg_match_all($search, $url ,$rr);
printf("<p>输出url数据为:</p><pre>%s</pre>\n",var_export( $rr ,true));

/*
各分组如下
      $1 = http:
      $2 = http
      $3 = //www.nowamagic.net
      $4 = www.nowamagic.net
      $5 = /pub/ietf/uri/
      $6 = <undefined>
      $7 = <undefined>
      $8 = #gonn
      $9 = gonn
*/
?>


上面的正则表达式可以获取url中的任何一部分,下面的代码则简单一些:
复制代码 代码如下:

<?php
// 从 url 中取得主机名
preg_match("/^(http:\/\/)?([^\/]+)/i", "//www.jb51.net/index.html", $matches);
$host = $matches[2];
// 从主机名中取得后面两段
preg_match("/[^\.\/]+\.[^\.\/]+$/", $host, $matches);
echo "domain name is: {$matches[0]}\n";
?>