欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

超全的js正则表达式整理笔记

程序员文章站 2022-08-18 08:52:42
var recat = new regexp("cat", "gi"); //regexp构造函数可以带一个或两个参数,第一个参数描述需要进行匹配的模式字符串,...

var recat = new regexp("cat", "gi"); //regexp构造函数可以带一个或两个参数,第一个参数描述需要进行匹配的模式字符串,第二个参数指定了额外的处理命令 
var recat = /cat/gi; //使用perl风格的语法 
 
 i:执行对大小写不敏感的匹配 
 g:执行全局匹配(查找所有匹配而非在找到第一个匹配后停止) 
 m:执行多行匹配 


元字符 

元字符是表达式语法的一部分,在正则表达式中用到的所有元字符有:{ [ ( \ ^ $ | ) ] } ? * + - 
如匹配一个问号:var reqmark = /\?/; 或 var reqmark = new regexp("\\?"); //注意这里是两个反斜杠,双重转义  

\xxx 查找以八进制数 xxx 规定的字符,如:/\142/为字符b 
\xdd 查找以十六进制数 dd 规定的字符,如:/\x62/为字符b 
\uxxxx 查找以十六进制数 xxxx 规定的 unicode 字符,如:/\u0062/为字符b 
\r 查找回车符 
\n 查找换行符 
\f 查找换页符 
\t 查找制表符 
\v 查找垂直制表符 
\a 查找alert字符 
\e 查找escape字符 
\cx 查找与x相对应的控制字符 
\0 查找 null 字符 
 
. 查找单个字符,除了换行和行结束符,等同于[^\n\r] 
\w 查找单词字符,等同于[a-za-z_0-9] 
\w 查找非单词字符,等同于[^a-za-z_0-9] 
\d 查找数字,等同于[0-9] 
\d 查找非数字字符,等同于[^0-9] 
\s 查找空白字符,等同于[ \t\n\x0b\f\r],\x0b为垂直tab和\t一样 
\s 查找非空白字符,等同于[^ \t\n\x0b\f\r] 

方括号 

[abc] 查找方括号之间的任何字符 
[^abc] 查找任何不在方括号之间的字符 
[0-9] 查找任何从 0 至 9 的数字 
[a-z] 查找任何从小写 a 到小写 z 的字符 
[a-z] 查找任何从大写 a 到大写 z 的字符 
[a-z] 查找任何从大写 a 到小写 z 的字符 
[adgk] 查找给定集合内的任何字符 
[^adgk] 查找给定集合外的任何字符 

量词 
? 匹配任何包含零个或一个的字符串,如:ba?d匹配bd、bad 
+ 匹配任何包含至少一个的字符串,如:ba+d匹配bad、baad 
* 匹配任何包含零个或多个的字符串,如:ba*d匹配bd、bad、baad 
{n} 匹配包含恰好出现n次的序列的字符串,如:ba{1}d匹配bad 
{n,m} 匹配包含至少n次但不超过m次 的序列的字符串,如:ba{0,1}d匹配bd、bad 
{n,} 匹配包含至少出现n次的序列的字符串,如:ba{0,}匹配bd、bad、baad、baaad   
贪婪量词:先看整个的字符串是否匹配,如果发现没有匹配,去年该字符串中的最后一个字符并再次尝试,如:?、+、*、{n}、{n, m}、{n, },默认就为贪婪量词 
惰性量词:先看字符串中的第一个字母是否匹配,如果单独这一个字符还不够,就读入下一个字符,组成两个字符的字符串,与贪婪量词的工作方式恰好相反,如:??、+?、*?、{n}?、{n, m}?、{n, }? 
支配量词:只尝试匹配整个字符串,如果整个字符串不能产生匹配,不做进一步尝试,如:?+、++、*+、{n}+、{n, m}+、{n, }+  

var stomatch = "abbbaabbbaaabbb1234"; 
var re1 = /.*bbb/g; //匹配结果为"abbbaabbbaaabbb" 
var re2 = /.*?bbb/g; //只有惰性量词才能匹配成功,匹配结果为"abbb","aabbb","aaabbb" 
var re3 = /.*+bbb/g; //匹配不了,直接报错 

复杂模式之分组:通过一系列括号包围一系列字符、字符类以及量词来使用的 
/(dog){2}/  匹配"dogdog" 
/([bd]ad?)*/  匹配空, "ba", "da", "bad", "dad" 
/(mom( and dad)?)/  匹配"mom", "mom and dad" 
/^\s*(.*?)\s+$/  匹配首尾的空白字符,也可以用/^\s+|\s+$/g 
复杂模式之反向引用:也叫捕获性分组,按照从左到右遇到的左括号字符的顺序进行创建和编号的,例如表达式(a?(b?(c?)))将产生编号从1-3的三个反向引用:(a?(b?(c?)))、(b?(c?))、(c?) 
反向引用有几种不同的使用方法: 
首先,使用正则表达式对象的test()、match()或search()方法后,反向引用的值可以从regexp构造函数中获得,如: 

var stomatch = "#123456789"; 
var renumbers = /#(\d+)/; 
renumbers.test(stomatch); 
alert(regexp.$1); //"123456789",$1保存了第一个反向引用,依次可以用$2,$3... 

然后,可以直接在定义分组的表达式中包含反向引用,通过使用特殊转义序列如\1、\2等实现 

var stomatch = "dogdog"; 
var redogdog = /(dog)\1/; //等同于/dogdog/ 
alert(redogdog.test(stomatch)); //true 

第三,反向引用可以用在string对象的replace()方法中,通过使用特殊字符序列如$1、$2等实现 

var stochange = "1234 5678"; 
var rematch = /(\d{4}) (\d{4})/; 
alert(stochange.replace(rematch, "$2 $1")); //"5678 1234" 

复杂模式之候选:使用管道符(|)放在两个单独的模式之间 

var rebadwords = /badword | anotherbadword/gi; 
var suserinput = "this is a string using badword1 and badword2."; 
var sfinaltext = suserinput.replace(rebadwords, function(smatch){ 
 return smatch.replace(/./g, "*"); //用星号替换敏感词中的每一个字母 
}); 

复杂模式之非捕获性分组:相比捕获性分组,不会创建反向引用,在较长的正则表达式中,存储反向引用会降低匹配速度,通过使用非捕获性分组,仍然可以拥有与匹配字符串序列同样的能力,而无需存储结果的开销 

var stomatch = "#123456789"; 
var renumbers = /#(?:\d+)/; //只需要在左括号的后面加上一个问号和一个紧跟的冒号就可创建一个非捕获性分组 
renumbers.test(stomatch); 
alert(regexp.$1); //"",输出空字符串是因为该分组是非捕获性的 
alert(stomatch.replace(renumbers, "abcd$1")); //输出结果是"abcd$1"而不是"abcd123456789",不能使用任何反向引用 

又如: 

string.prototype.striphtml = function(){ 
 var retag = /<(?:.|\s)*?>/g; //匹配所有的html标签,防止插入恶意html代码 
 return this.replace(retag, ""); 
} 

复杂模式之前瞻:告诉正则表达式运算器向前看一些字符而不移动其位置,存在正向前瞻(检查接下来出现的是不是某个特定字符集)和负向前瞻(检查接下来的不应该出现的特定字符集) 
正向前瞻(?=n) 匹配任何其后紧接指定字符串 n 的但不包括 n的字符串,注意这里的括号不是分组 
负向前瞻(?!n) 匹配任何其后没有紧接指定字符串 n 的字符串,如:  

var stomatch1 = "bedroom"; 
var stomatch2 = "bedding"; 
var rebed1 = /(bed(?=room))/; 
var rebed2 = /(bed(?!room))/; 
alert(rebed1.test(stomatch1)); //true 
alert(regext.$1); //输出"bed"而不是"bedroom" 
alert(rebed1.test(stomatch2)); //false 
alert(rebed2.test(stomatch1)); //false 
alert(rebed2.test(stomatch2)); //true 
alert(regext.$1); //输出的也是"bed" 

复杂模式之边界:用于正则表达式中表示模式的位置 
n$ 匹配任何结尾为 n 的字符串,如:/(\w+)\.$/匹配行尾单词"one.","two."等 
^n 匹配任何开头为 n 的字符串,如:/^(.+?)\b/匹配起始位置后的一个或多个单词字符 
\b 查找位于单词的开头或结尾的匹配,如:/\b(\s+?)\b/g 或 /(\w+)/g匹配从字符串中抽取单词 
\b 查找不处在单词的开头或结尾的匹配 
复杂模式之多行模式: 

var stomatch = "first second\nthird fourth\nfifth sixth"; 
var relastwordonline = /(\w+)$/gm; 
alert(stomatch.match(relastwordonline)); //输出["second", "fourth", "sixth"]而不只是"sixth" 

regexp对象的属性和方法: 
global  //regexp 对象是否具有标志 g 
ignorecase  //regexp 对象是否具有标志 i 
multiline  //regexp 对象是否具有标志 m 
source  //正则表达式的源文本 
lastindex  //一个整数,标示下一次匹配钭会从哪个字符位置开始(只有当使用exec()和test()函数才会填入,否则为0) 
真正使用到的是lastindex,如:  

 
var stomatch = "bbq is short for barbecue"; 
var reb = /b/g; 
reb.exec(stomatch); 
alert(reb.lastindex); //1,匹配位置是0,lastindex为1 
reb.exec(stomatch); 
alert(reb.lastindex); //2 
reb.exec(stomatch); 
alert(reb.lastindex); //18 
reb.lastindex = 0; //重头开始匹配 
reb.exec(stomatch); 
alert(reb.lastindex); //1而不是21 

静态属性 
input,短名为$_,最后用于匹配的字符串(传递给exec()或test()的字符串) 
leftcontext,短名为$^,在上次匹配的前面的子串 
rightcontext,短名为$^,在上次匹配之后的子串 
lastmatch,短名为$&,最后匹配的字符 
lastparen,短名为$+,最后匹配的分组 
multiline,短名为$*,用于指定是否所有的表达式都使用多行模式的布尔值,不同于其它属性,不依赖最后一次执行的匹配,它可以设置所有的正则表达式的m选项,regexp.multiline = "true";,注意ie和opera不运行它  

 var stomatch = "this has been a short, short summer"; 
 var reshort = /(s)hort/g; 
 reshort.test(stomatch); 
 alert(regexg.input); //"this has been a short, short summer"; 
 alert(regexg.leftcontext); //"this has been a "; 
 alert(regexg.rightcontext); //", short summer"; 
 alert(regexg.lastmatch); //"short" 
 alert(regexg.lastparen); //"s" 
 
compile() //编译正则表达式 
alert(recat.exec("a cat, a cat, a cat cat")); //返回一个数组,数组中的第一个条目是第一个匹配,其他的是反向引用 
alert(recat.test("cat")); //true,检索字符串中指定的值,返回 true 或 false。 

支持正则表达式的string对象的方法 

var stomatch = "a bat, a cat, a fat, a fat cat"; 
var reat = /at/gi; 
alert(stomatch.match(reat)); //返回一个包含在字符串中的所有匹配的数组 
alert(stomatch.search(reat)); //输出第一次在字符串中出现的位置3,全局匹配g在search()时不起作用 
alert(stomatch.replace(reat, "dog")); //替换与正则表达式匹配的子串 
alert(stomatch.replace(reat, function(smatch){ 
 return "dog"; 
})); 
alert(stomatch.split(/\,/)); //把字符串分割为字符串数组 

常用模式 
日期:/(?:0[1-9]|[12][0-9]|3[01])\/(?:0[1-9]|1[0-2])\/(?:19|20\d{2})/ 
url:/^http://([w-]+.)+[w-]+(/[w-./?%&=]*)?$/ 
e-mail地址:/^(?:\w+\.?)*\w+@(?:\w+\.?)*\w+$/ 
国内电话号码:d{3}-d{8}|d{4}-d{7} 
腾讯qq号:[1-9][0-9]{4,} 
邮政编码:[1-9]d{5}(?!d) 
身份证:d{15}|d{18} 
ip地址:d+.d+.d+.d+ 
中文字符: [u4e00-u9fa5] 
双字节字符(包括汉字在内):[^x00-xff] 
    string.prototype.len=function(){return this.replace([^x00-xff]/g,"aa").length;} 
全角字符:/[^uff00-uffff]/g 
匹配特定数字: 

^[1-9]\d*$    //匹配正整数 
^-[1-9]\d*$   //匹配负整数 
^-?[1-9]\d*$   //匹配整数 
^[1-9]\d*|0$  //匹配非负整数(正整数 + 0) 
^-[1-9]\d*|0$   //匹配非正整数(负整数 + 0) 
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$   //匹配正浮点数 
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$  //匹配负浮点数 
^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$  //匹配浮点数 
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$   //匹配非负浮点数(正浮点数 + 0) 
^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$  //匹配非正浮点数(负浮点数 + 0) 

是不是很全面,很详细,感觉不错的就把这文章好好收藏,js正则表达式很重要的学习环节,大家一定好好学习。