Python re 模块

程序员文章站 2022-06-27 15:58:37

Python re 模块 TOC 介绍作用正则表达式语法贪婪和非贪婪普通字符和特殊字符 re modul level 方法正则表达式对象匹配对象常用例子注意事项 Jamie Zawinski said: Some people,when confronted with a probl ......

Python re 模块

TOC

介绍
- 作用
正则表达式语法
- 贪婪和非贪婪
- 普通字符和特殊字符
re modul level 方法
正则表达式对象
匹配对象
常用例子
注意事项

Jamie Zawinski said:

Some people,when confronted with a problem,think,"I know,I'll use regular expressions."
Now they have two problem!

当人们遇到一个问题，想到用正则表达式解决时。他们的问题马上就变成了两个问题
调侃正则表达式不好学。

python支持正则表达式是通过re模块
Regular Expressions 也叫 REs,regex,regexp,regex patterns。看见这些名字就知道是正则表达式
Regex本质是一个小型的，高度专业的编程语言。很多高级语言都嵌入了Regex,Python只是通过re模块来让python可以支持Regex。
For advanced use ,it may be necessary to pay careful attention to how the engine will execute a given RE, and write the RE in a certain way in order to produce bytecode that runs faster.
正则表达式不是全能的，也有一些处理不了的字符任务。
正则表达式是对某种字符串的表示。一个字符串符合一个正则表达式规则，我们就说这个字符串匹配该正则表达式。
匹配过后就可以做很多事情了。正则常用于处理：
- 替换:将字符串中匹配到正则表达式的进行替换
- 截取：将匹配的从字符串截取掉。根据start,end索引截取
- 匹配逻辑判断：匹配search ，match等
- 计数：使用finditer迭代记性迭代计数，其它方式也行
- 过滤：通过匹配结果bool进行过滤
- 包含：search
- 全匹配：fullmatch
- 分隔：split

注意：

Python中的字符串是支持转义符的，所以要特别注意正则表达式在python中也是用字符串标识而正则表达式也是支持转移字符的，所以避免python字符串将转移解析，就需要给python指示出正则表达式字符串中的转移字符是正则用的，而不是python字符串所用，就需要这样做r'partten'，这样正则表达式中的字符都是没有特殊功能。如：r'\n'是两个字符，'\n'是一个字符，代表换行符。
正则和需要匹配的字符串，都是要Unicode string 或 8-bit string。两种是不能混合使用。

正则表达式语法

表达式串表达式
复杂表达式可以由简单表达式构成
正则表达式的贪婪greedy和非贪婪non-greedy
- 是说'+' '*' '?'等多态数量指定的是贪婪匹配，会去匹配尽可能大的范围。
- 给这三个加上'?'，就是非贪婪，回去匹配尽可能小的范围。
正则表达式包含特殊字符和普通字符
- 普通字符
  - 什么'A' 'B' 'c' 'd';什么'last' 'next' 'hello' 由普通字符串连起来的。
- 特殊字符
  - 像 '.' '()' '|' 等

special character	means	comments
'.'	点号，代表所有字符除了newline换行符	如果设置了DOTALL flag标识，那就会包含newline
'^'	代表字符串的开始,The start of the string	In MULTLINE mode在多行模式也匹配每个newline的结尾处
'$'	匹配the end of the string or just befor the newline at the end of the string	In MULTILINE mode also matches before a newline.
'\b'	不匹配任何字符串，匹配单词的开头或结尾	如r'\bfoo\b' 能匹配 'foo','foo.','(foo)','bar foo bar'，但是不能匹配'foobar'
'\B'	不匹配任何字符串，是\b的反义
__'*'__	匹配 0个或多次重复这个符号前面的RE	贪婪
'+'	匹配 1个或多次重复这个符号前面的RE	贪婪，注意是前面的一个RE，一个普通字符就是一个RE不是所有，是最小单位的一个RE.如 ab+ 匹配的是ab or abbb... 而不是ababab
'?'	匹配 0个或 1次重复这个符号前面的RE	贪婪
__'*?,??,+?'__	禁掉*,?,+的贪婪，取他们能匹配的最小范围	非贪婪
'{m}'	指定数量重复这个符号前面的RE	非贪婪
'{m,n}'	指定m到n数量重复这个符号前面的RE	贪婪，n如果不指定的话，至少m个重复RE
'{m,n}?'	指定m到n数量重复这个符号前面的RE，但是至匹配最小数量	非贪婪
''	转义特殊字符	即然特殊字符表示其字面义
'[]'	Used to indicate a set of characters	特殊字符在[]中会没有特殊意义；但是^符号在[]中如果是第一个字符，那么^是有意义的，这里不是表示字符串的开头，而是取反取补集 .并且在[]除了开头的^恶化]符号是有各自的意义
'\|'	两边是RE，匹配左边或者右边，或关系	非贪婪，从左到右匹配
'\w'
'\W'
'\d'
'\D'
'\s'

等等等等。。。。

re 模块提供的方法

re.compile(partten,flag) 返回一个regex对象，regex对象支持很多模块级的函数相同功能的方法,如prog.search(str),prog.match(str)...等等。->返回一个regular expression 对象
re.search(partten,string,flag) 扫描字符串，找到第一个符合正则表达式匹配的字符，匹配到并返回match对象，一个都没匹配到返回None。
re.match(partten,string,flag) 从字符串开始匹配partten，如果匹配到返回match对象，否则返回None。
re.split(partten,string,maxsplite=0,flag=0) 将string中所有匹配的上partten的作为字符串的分隔符进行分隔字符串。如果一个没匹配上返回列表中只有string一个字符串。如果匹配上就分隔返回分隔后元素组成的列表。maxsplit指定字符串最多可以分割的次数。还要特别注意，如果partten中是用了分组，那么分组将出现在最后分隔列表中，每个元素之间。就是将分组中匹配到的也添加到列表中。
re.findall(partten,string,flag=0) 返回一个列表，将字符串总所有匹配上模式的都出道列表中。
re.sub(pattern, repl, string , count=0, flags=0) 将 string中匹配到partten的替换为repl。count指定匹配多少个。返回替换后的字符串。repl也可以是一个函数，接受一个字符串，返回一个字符串。函数是非常有用的，可以添加逻辑判断。这个很有用的！！！
re.escape(str) 将str中处在在正则表达式中有特殊意义的字符进行转移。返回转移后的字符串。
re.fullmatch(partten, string, flags=0) 整个字符串都匹配partten,就返回re对象，否则返回None。
re.finditer(partten, string, flags=0) 返回一个生成器，生成器每次next()返回的是一个match对象，这个match对象是依次正则匹配上的。

Regular Expression Object

正则表达式对象：

就是通过re.compile(partte)返回的对象
如果一个正则表达式在代码中多次被使用，那么最好将其编译成正则对象，这样代码运行效率更快。
正则对象拥有re模块所有的的函数对应的方法
这这表达式还有属性prog.groups 是正则对象包含的分组数
prog.groupindex 是命名分组名和组id的一个字典

Match Object

匹配对象：

re模块search,match,fullmatch以及finditer的生成器返回的，这些将匹配上的都作为一个match对象返回
match对象存储了匹配上的字符串。并且如果正则表达式有分组的话，那么还会按照分组进行逻辑上的分组存储，提供group()方法进行分组访问。
match.group([group1,...]) 参数为组的偏移值，第一个组那么是1，第二个组那么是2，依次类推。如果不带参数或者参数偏移为0，那么返回整个正则匹配的字符串。如果是单个组的偏移量，那么就是某个组的字符串。如果是多个组的偏移，那么就将多个组匹配的字符串组成的元组返回。
match.group() 如果正则表达式是命名组，那么也支持名字访问组值。也支持索引。
如果group是贪婪的，那么已最后一次匹配为该组的值。
match.groups() 返回所有的组所构成的元组，这个方法的参数是默认值，用在某个主没匹配上任何字符。
match.groupdict() 返回命名组字典，也是可以传入一个默认值参数，当某个组没有匹配上。
注意group()返回匹配的字符串，就算没有分组。而groups()必须有分组才会有值，不然是空元组，groupdict()返回空字典
match.start() 匹配上字符串的开始位置
match.end() 匹配上字符串的结束位置

re 例子

参考官方手册re模块例子

手机格式 1\d{10}
邮箱格式 r"^\w+(.?\w+)@(\w+.)\w+$"
带名字邮箱地址格式
IPv4地址

注意

正则表达式，在有可变长的贪婪配置时，一定要考虑好后面的匹配会影响可变长表达式所能匹配到的范围。
正则表达式中反斜杠字符的表示。由于字符要进行转义，转移的字符又要进行转义，所以转义一个反斜杠需要四个反斜杠或者r"\\\" r加三个反斜杠。

上一篇： Python3 运算符

下一篇：报错pymysql.err.DataError: (1406, "Data too long for column 'gender'

Python re 模块

Python re 模块

正则表达式语法

re 模块提供的方法

Regular Expression Object

Match Object

re 例子

注意

快速入手Python字符编码

Python实现八大排序算法

Python脚本处理空格的方法

Python函数的周期性执行实现方法

教你用Type Hint提高Python程序开发效率

总结python爬虫抓站的实用技巧

判断网页编码的方法python版

如何将python中的List转化成dictionary

Python如何实现文本转语音

Python利用IPython提高开发效率