php 过滤器实现代码
程序员文章站
2022-06-07 16:13:15
在以前,一个用户通过网络主要是获取信息。而如今的网络刚更注重与用户的交互,用户不再仅仅是网站的浏览者,也是网站内容的制造者。由以前单纯的“读”向“写”以及“共同创作”发展,...
在以前,一个用户通过网络主要是获取信息。而如今的网络刚更注重与用户的交互,用户不再仅仅是网站的浏览者,也是网站内容的制造者。由以前单纯的“读”向“写”以及“共同创作”发展,由被动接收信息向主动分行信息发展。而随之而来的安全问题也成了web开发者不可忽视的问题,验证第三方来源的数据成了每个web程序必不可少的功能。
在以前,php需要验证数据,一般都是程序员自己通过正则表达式实现,而从php从5.2开始把原本的pcel中的filter函数移到了内置库中,并做了不少强化,可以用这些函数实现对数据的过滤和验证。
数据来源及验证类型
php中的数据来源包含两部分,其一是外部变量(如post、get、cookie等),还有一种是页面内部产生的数据。php针对这两种数据类型分别定义了ilter_input_**和filter_var_**系列函数。而依据验证方法的不一样又可以分为validating和sanitizing两种。validating用于验证数据,返回一个布尔值。sanitizing则按规则过滤一些特定的字符,返回的是处理后的字符串。
简单用法
比如验证一个字符串是否是一个整数,在以往我们可以通过正则表达式或是is_numeric函数实现:
$str = '51ab';
preg_match('/^[0-9]*$/', $str);
is_numeric($str);
新的验证函数可以用以下方式:
$str = '51ab';
echo filter_var($str, filter_validate_int) ? 'is valid' : 'is not valid';filter_validate_int是php定义的一个过滤器,用于验证$str是否为一个整数。实际上这就是一个数值常量,通过echo filter_validate_int;发现值为257。所以我们也可以用:
$str = '51ab';
echo filter_var($str, 257) ? 'is valid' : 'is not valid';php中定义了大量常用的过滤器,我们可以通过filter_list()获得所有支持的过滤器名称(用字符串表示),然后再用filter_id(string)获取其数值:
print_r(filter_list()); // 所有支持的过滤器名称。
echo '=========';
echo filter_id('int'); // 'int' 是filter_list返回的一个过滤器名称。以上将输入出类似以下内容:
array(0=>int',1=>'boolean',2=>'float',3=>'validate_regexp')
==========
257sanitizing过滤器
上面这个是验证数据格式是否正确,有时候过滤掉无关的内容也是挺重要的。sanitize过滤提供了这种功能,比如过滤掉一个email中多余的字符:
$email = '<script>alert("test");</sript>xxx@caixw.com';
echo $email; // 直接输出,将会执行script脚本。
echo filter_var($email, filter_sanitize_email); // 会过滤掉<和>输出scriptalerttestscriptxxx@caixw.com选项和标志
filter_var的功能还不止于此,还可以指定第三个参数,附加一些特殊的选项,比如一个规定了最大值的整数:
$options = array(
'options'=>array('max_range'=>50),
'flags'=>filter_flag_allow_octal,
);
$str = '51';
echo filter_var($str, filter_validate_int, $options) ? 'is valid' : 'is not valid';
上面将返回is not valid。因为max_range规定其最大值只能为50。而filter_flag_allow_octal则允许验证的数据是一个八进制的,也即是0开头的。
$options参数是一个数组,包含两个元素:options和flags。若是只有flags元素,则也可以直接传递而不用数组。
验证外部数据
除了php脚本自己产生的数据,来自用户提交的数据占大部分。当然我们也可以直接用filter_var进行过滤:
if(isset($_get['age']))
{
echo filter_var($_get['age'], filter_validate_int) ? 'is valid' : 'is not valid';
}
但是php中还专门提供了几个函数用于验证外部来源的数据:
if(filter_has_var(input_get, 'age'))
{
echo filter_input(input_get, 'age', filter_validate_int) ? 'is valid' : 'is not valid';
}
相较于filter_var,filter_input多了一个参数(第一个参数)用于指定数据的来源。而filter_has_var()而用来判断是否存在指定的数据。
一次过滤多个数据
php还提供了filter_var_array和filter_input_array函数用于一次性验证多个数据。
这是来自php.net上的一个实例,用于说明filter_var_array()怎么使用。
$data = array(
'product_id' => 'libgd<script>',
'component' => '10',
'versions' => '2.0.33',
'testscalar' => array('2', '23', '10', '12'),
'testarray' => '2',
);
$args = array(
'product_id' => filter_sanitize_encoded,
'component' => array('filter' => filter_validate_int,
'flags' => filter_force_array,
'options' => array('min_range' => 1, 'max_range' => 10)
),
'versions' => filter_sanitize_encoded,
'doesnotexist' => filter_validate_int,
'testscalar' => array(
'filter' => filter_validate_int,
'flags' => filter_require_scalar,
),
'testarray' => array(
'filter' => filter_validate_int,
'flags' => filter_force_array,
)
);
$myinputs = filter_var_array($data, $args);
自定义过滤器
可以通过传递一个特殊的过滤器filter_callback来指定一个自定义的过滤器,下面这个过滤器将把所有邮箱地址的@转换成#。
function fun($value)
{
return strtr($value,'@','#');
}
$var = filter_var('abc@caixw.com', filter_callback, array('options' => 'fun'));
echo $var;
在以前,php需要验证数据,一般都是程序员自己通过正则表达式实现,而从php从5.2开始把原本的pcel中的filter函数移到了内置库中,并做了不少强化,可以用这些函数实现对数据的过滤和验证。
数据来源及验证类型
php中的数据来源包含两部分,其一是外部变量(如post、get、cookie等),还有一种是页面内部产生的数据。php针对这两种数据类型分别定义了ilter_input_**和filter_var_**系列函数。而依据验证方法的不一样又可以分为validating和sanitizing两种。validating用于验证数据,返回一个布尔值。sanitizing则按规则过滤一些特定的字符,返回的是处理后的字符串。
简单用法
比如验证一个字符串是否是一个整数,在以往我们可以通过正则表达式或是is_numeric函数实现:
复制代码 代码如下:
$str = '51ab';
preg_match('/^[0-9]*$/', $str);
is_numeric($str);
新的验证函数可以用以下方式:
$str = '51ab';
echo filter_var($str, filter_validate_int) ? 'is valid' : 'is not valid';filter_validate_int是php定义的一个过滤器,用于验证$str是否为一个整数。实际上这就是一个数值常量,通过echo filter_validate_int;发现值为257。所以我们也可以用:
$str = '51ab';
echo filter_var($str, 257) ? 'is valid' : 'is not valid';php中定义了大量常用的过滤器,我们可以通过filter_list()获得所有支持的过滤器名称(用字符串表示),然后再用filter_id(string)获取其数值:
print_r(filter_list()); // 所有支持的过滤器名称。
echo '=========';
echo filter_id('int'); // 'int' 是filter_list返回的一个过滤器名称。以上将输入出类似以下内容:
array(0=>int',1=>'boolean',2=>'float',3=>'validate_regexp')
==========
257sanitizing过滤器
上面这个是验证数据格式是否正确,有时候过滤掉无关的内容也是挺重要的。sanitize过滤提供了这种功能,比如过滤掉一个email中多余的字符:
$email = '<script>alert("test");</sript>xxx@caixw.com';
echo $email; // 直接输出,将会执行script脚本。
echo filter_var($email, filter_sanitize_email); // 会过滤掉<和>输出scriptalerttestscriptxxx@caixw.com选项和标志
filter_var的功能还不止于此,还可以指定第三个参数,附加一些特殊的选项,比如一个规定了最大值的整数:
复制代码 代码如下:
$options = array(
'options'=>array('max_range'=>50),
'flags'=>filter_flag_allow_octal,
);
$str = '51';
echo filter_var($str, filter_validate_int, $options) ? 'is valid' : 'is not valid';
上面将返回is not valid。因为max_range规定其最大值只能为50。而filter_flag_allow_octal则允许验证的数据是一个八进制的,也即是0开头的。
$options参数是一个数组,包含两个元素:options和flags。若是只有flags元素,则也可以直接传递而不用数组。
验证外部数据
除了php脚本自己产生的数据,来自用户提交的数据占大部分。当然我们也可以直接用filter_var进行过滤:
复制代码 代码如下:
if(isset($_get['age']))
{
echo filter_var($_get['age'], filter_validate_int) ? 'is valid' : 'is not valid';
}
但是php中还专门提供了几个函数用于验证外部来源的数据:
复制代码 代码如下:
if(filter_has_var(input_get, 'age'))
{
echo filter_input(input_get, 'age', filter_validate_int) ? 'is valid' : 'is not valid';
}
相较于filter_var,filter_input多了一个参数(第一个参数)用于指定数据的来源。而filter_has_var()而用来判断是否存在指定的数据。
一次过滤多个数据
php还提供了filter_var_array和filter_input_array函数用于一次性验证多个数据。
这是来自php.net上的一个实例,用于说明filter_var_array()怎么使用。
复制代码 代码如下:
$data = array(
'product_id' => 'libgd<script>',
'component' => '10',
'versions' => '2.0.33',
'testscalar' => array('2', '23', '10', '12'),
'testarray' => '2',
);
$args = array(
'product_id' => filter_sanitize_encoded,
'component' => array('filter' => filter_validate_int,
'flags' => filter_force_array,
'options' => array('min_range' => 1, 'max_range' => 10)
),
'versions' => filter_sanitize_encoded,
'doesnotexist' => filter_validate_int,
'testscalar' => array(
'filter' => filter_validate_int,
'flags' => filter_require_scalar,
),
'testarray' => array(
'filter' => filter_validate_int,
'flags' => filter_force_array,
)
);
$myinputs = filter_var_array($data, $args);
自定义过滤器
可以通过传递一个特殊的过滤器filter_callback来指定一个自定义的过滤器,下面这个过滤器将把所有邮箱地址的@转换成#。
复制代码 代码如下:
function fun($value)
{
return strtr($value,'@','#');
}
$var = filter_var('abc@caixw.com', filter_callback, array('options' => 'fun'));
echo $var;
其它
id (过滤器常量) |
名称 (filter_list()函数返回的名称) |
可用选项 | 标志位 | 描述 |
---|---|---|---|---|
validating | ||||
filter_validate_boolean | "boolean" | filter_null_on_failure | 当难的数据为"1","true","on","yes"时返回true,否则返回false。当设置了filter_null_on_failure标志位,则仅在值是"0","false","off","no", 和""是返回false,其它非true值返回null。 | |
filter_validate_email | "validate_email" | 验证邮箱 | ||
filter_validate_float | "float" | decimal | filter_flag_allow_thousand | 验证浮点数 |
filter_validate_int | "int" | min_range, max_range | filter_flag_allow_octal, filter_flag_allow_hex | 验证一个指定范围内的整数值 |
filter_validate_ip | "validate_ip" | filter_flag_ipv4, filter_flag_ipv6, filter_flag_no_priv_range, filter_flag_no_res_range | 验证ip地址 | |
filter_validate_regexp | "validate_regexp" | regexp | 验证一个正则表达式 | |
filter_validate_url | "validate_url" | filter_flag_path_required, filter_flag_query_required | 验证一个url | |
sanitizing | ||||
filter_sanitize_email | "email" | 移除除英文字符,数字以及!#$%&'*+-/=?^_`{|}~@.[]之外的字符。 | ||
filter_sanitize_encoded | "encoded" | filter_flag_strip_low, filter_flag_strip_high, filter_flag_encode_low, filter_flag_encode_high | url编码字符串,去除或编码指定字符串。 | |
filter_sanitize_magic_quotes | "magic_quotes" | 应用 addslashes()函数 | ||
filter_sanitize_number_float | "number_float" | filter_flag_allow_fraction, filter_flag_allow_thousand, filter_flag_allow_scientific | 移除除数字,+-以及.,ee以外的字符 | |
filter_sanitize_number_int | "number_int" | 移除除数字以及+-以外的字符 | ||
filter_sanitize_special_chars | "special_chars" | filter_flag_strip_low, filter_flag_strip_high, filter_flag_encode_high | html转义字符,'"&><以及 ascii 值小于 32 的字符。以及其它指定的字符。 | |
filter_sanitize_string | "string" | filter_flag_no_encode_quotes, filter_flag_strip_low, filter_flag_strip_high, filter_flag_encode_low, filter_flag_encode_high, filter_flag_encode_amp | 去除标签,或是去除或编码指定的字符。 | |
filter_sanitize_stripped | "stripped" | alias of "string" filter. | ||
filter_sanitize_url | "url" | 删除所有字符除字母、数字以及$-_.+!*'(),{}|\\^~[]`<>#%";/?:@&= | ||
filter_unsafe_raw | "unsafe_raw" | filter_flag_strip_low, filter_flag_strip_high, filter_flag_encode_low, filter_flag_encode_high, filter_flag_encode_amp | 不做任何改变,或是按标志位去除或是编码指定字母。 | |
filter_callback | "callback" | filter_flag_strip_low, filter_flag_strip_high, filter_flag_encode_low, filter_flag_encode_high, filter_flag_encode_amp | 自定义过滤器 |
标志位
id | 可用的过滤器 | 描述 |
---|---|---|
filter_flag_strip_low | filter_sanitize_encoded, filter_sanitize_special_chars, filter_sanitize_string, filter_unsafe_raw | 去除ascii小于32的字符。 |
filter_flag_strip_high | filter_sanitize_encoded, filter_sanitize_special_chars, filter_sanitize_string, filter_unsafe_raw | 去除ascii在于127的字符。 |
filter_flag_allow_fraction | filter_sanitize_number_float | 允许小数点分隔符(.) |
filter_flag_allow_thousand | filter_sanitize_number_float, filter_validate_float | 允许千位分隔符(,) |
filter_flag_allow_scientific | filter_sanitize_number_float | 允许科学计数法(e或e)。 |
filter_flag_no_encode_quotes | filter_sanitize_string | 不编码引号(单引号和双引号)。 |
filter_flag_encode_low | filter_sanitize_encoded, filter_sanitize_string, filter_sanitize_raw | 编码ascii小于32的字符。 |
filter_flag_encode_high | filter_sanitize_encoded, filter_sanitize_special_chars, filter_sanitize_string, filter_sanitize_raw | 编码ascii大于127的字母。 |
filter_flag_encode_amp | filter_sanitize_string, filter_sanitize_raw | 编码&符号。 |
filter_null_on_failure | filter_validate_boolean | 返回null当验证数据不是以下字符串时(yes,no,1,0,true,false,on,off)。 |
filter_flag_allow_octal | filter_validate_int | 允许八进制数值(0开头)。 |
filter_flag_allow_hex | filter_validate_int | 允许16进制数值。(0x或是0x开头)。 |
filter_flag_ipv4 | filter_validate_ip | ip4格式字符串。 |
filter_flag_ipv6 | filter_validate_ip | ip6格式字符串。 |
filter_flag_no_priv_range | filter_validate_ip | rfc指定的私域ip。ip4如下范围10.0.0.0/8, 172.16.0.0/12, 192.168.0.0/16。或是ip6以下开头的域: fd或fc |
filter_flag_no_res_range | filter_validate_ip | 要求值不在保留的 ip 范围内。ipv4 ranges:0.0.0.0/8, 169.254.0.0/16,192.0.2.0/24 and 224.0.0.0/4。不能应用于ip6。 |
filter_flag_path_required | filter_validate_url | 要求url包含路径部分。 |
filter_flag_query_required | filter_validate_url | 要求url查询字符串。 |