欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

python之re模块

程序员文章站 2022-03-12 10:21:30
python 中使用正则表达式需要引入re模块,用来匹配处理字符串 如: import re #第一步,要引入re模块 a = re.findall("匹配规则", "要匹配的字符串") #第二步,调用模块函数 以列表形式返回匹配到的字符串 1、普通字符和11个元字符: 匹配自身 abc abc . ......

python 中使用正则表达式需要引入re模块,用来匹配处理字符串 

如:

import re #第一步,要引入re模块

a = re.findall("匹配规则", "要匹配的字符串") #第二步,调用模块函数

以列表形式返回匹配到的字符串

1、普通字符和11个元字符:

 

普通字符
匹配自身
abc
abc
.
匹配任意除换行符"\n"外的字符(在dotall模式中也能匹配换行符
a.c
abc
\
转义字符,使后一个字符改变原来的意思
a\.c;a\\c
a.c;a\c
*
匹配前一个字符0或多次
abc*
ab;abccc
+
匹配前一个字符1次或无限次
abc+
abc;abccc
?
匹配一个字符0次或1次
abc?
ab;abc
^
匹配字符串开头。在多行模式中匹配每一行的开头 ^abc
abc
$
匹配字符串末尾,在多行模式中匹配每一行的末尾 abc$
abc
| 或。匹配|左右表达式任意一个,从左到右匹配,如果|没有包括在()中,则它的范围是整个正则表达式
abc|def
abc
def
{} {m}匹配前一个字符m次,{m,n}匹配前一个字符m至n次,若省略n,则匹配m至无限次
ab{1,2}c
abc
abbc
[]
字符集。对应的位置可以是字符集中任意字符。字符集中的字符可以逐个列出,也可以给出范围,如[abc]或[a-c]。[^abc]表示取反,即非abc。
所有特殊字符在字符集中都失去其原有的特殊含义。用\反斜杠转义恢复特殊字符的特殊含义。
a[bcd]e
abe
ace
ade
 
()
被括起来的表达式将作为分组,从表达式左边开始没遇到一个分组的左括号“(”,编号+1.
分组表达式作为一个整体,可以后接数量词。表达式中的|仅在该组中有效。
(abc){2}
a(123|456)c
abcabc
a456c

 

2、预定义字符集(可以写在字符集[...]中) 

 

\d
数字:[0-9]
a\bc
a1c
\d
非数字:[^\d]
a\dc
abc
\s
匹配任何空白字符:[<空格>\t\r\n\f\v]
a\sc
a c
\s 非空白字符:[^\s]
a\sc
abc
\w
匹配包括下划线在内的任何字字符:[a-za-z0-9_]
a\wc
abc
\w
匹配非字母字符,即匹配特殊字符
a\wc
a c
\a
仅匹配字符串开头,同^ \aabc
abc
\z
仅匹配字符串结尾,同$
abc\z
abc
\b
匹配\w和\w之间,即匹配单词边界匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。 \babc\b
a\b!bc
空格abc空格
a!bc
\b
[^\b]
a\bbc
abc

模块函数:

1、compile()

编译正则表达式字符串,返回一个对象。该对象可以直接以  .  的方式访问模块函数

格式:

re.compile(pattern,flags=0)

pattern: 编译时用的表达式字符串。

flags 编译标志位,用于修改正则表达式的匹配方式,如:是否区分大小写,多行匹配等。

2、match()

从字符串头部开始匹配。//注:这个方法并不是完全匹配。当pattern结束时若string还有剩余字符,仍然视为成功。想要完全匹配,可以在表达式末尾加上边界匹配符'$'

格式:

re.match(pattern, string, flags=0)

3、search()

 格式:

re.search(pattern, string, flags=0)

re.search函数会在字符串内查找模式匹配,只要找到第一个匹配然后返回,如果字符串没有匹配,则返回none。

4、findall()

re.findall遍历匹配,获取字符串中所有匹配的子串,返回一个列表。

 格式:

re.findall(pattern, string, flags=0)