python day25 正则表达式

程序员文章站 2022-07-02 17:05:13

2019.4.30 S21 day25笔记总结正则表达式 1. 正则表达式 re模块：re模块本身只是用来操作正则表达式的，和正则本身没关系。正则表达式：是一种规则匹配字符串的规则。为什么要有正则表达式？ 1.匹配字符串 2.表单验证 3.爬虫从网页源码中获取一些链接、重要数据正则规则（ ......

2019.4.30 s21 day25笔记总结

正则表达式

1. 正则表达式

re模块：re模块本身只是用来操作正则表达式的，和正则本身没关系。

正则表达式：是一种规则匹配字符串的规则。

为什么要有正则表达式？

1.匹配字符串

- 一个人的电话号码
- 一个人的身份证号
- 一台机器的ip地址

2.表单验证

- 验证用户输入的信息是否准确
      11位 全数字 1开头 第二个数3-9之内的数
- 银行卡号

3.爬虫
从网页源码中获取一些链接、重要数据

正则规则（元字符，量词）：

第一条规则：本身是哪一个字符，就匹配字符串中的哪一个字符。

第二条规则：字符组[字符1字符2]，一个字符组就代表匹配一个字符，只要这个字符出现在字符组里，那么就说明这个字

符能匹配上

字符组中还可以使用范围

所有的范围都必须遵循ascii码从下到大来指定。如：[0-9] [a-z] [a-z]

2. 元字符

1. \d(digit) \w(word) \s(space) \t(table) \n(next)
  
  [0-9] \d 表示所有的数字
  - d --> d
  - \d --> \是转义符，转义符转义了d，让d能够匹配所有0-9之间的数
  - [\d] [0-9] \d 没有区别都是要匹配一位数字
  \w 表示大小写字母、数字、下划线
  
  \s 表示空白、空格、换行符、制表符
  
  \t 匹配制表符
  
  \n 匹配换行符
2. \d \w \s
  
  \d 表示所有的非数字
  
  \w 表示除数字、字母、下划线之外的所有字符
  
  \s 表示非空白
  
  [\d\d] [\w\w] [\s\s] 匹配所有一切字符
3. . 表示除了换行符之外的任意内容
  
  . 在.前加一个转义符。表示取消.的意义。
4. [] [^]
  
  [] 字符组：只要在中括号内的所有字符都是符合规则的字符
  
  [^ ]非字符组：只要在中括号内的所有字符都是不符合规则的字符
5. ^ $
  
  ^ 表示一个字符的开始
```
^a
abc abc abc    # 表示要匹配开始的a
```
  $ 表示一个字符的结束
```
c$
abc abc abc    # 表示要匹配结束的c
```
  ^ $ 两个同时存在时，他俩之间的正则规定长度必须和要匹配的内容长度一致。
6. | ()
  
  | 表示或，注意：如果两个规则有重叠部分，总是长的在前面，短的在后面
  
  () 表示分组，给一部分正则规定为一组，| 这个符号的作用域就可以缩小了

3. 量词

{n} 表示只能出现n次

{n,m}表示至少出现n次，至多出现m次

？表示匹配0次或1次表示可有可无但是有只能有一个比如小数点

. 表示匹配1次或多次

*表示匹配0次或多次表示可有可无但是有可以有多个比如小数点后n位

什么时候会用到匹配0次？

1.匹配任意的2位整数   \d{2}
2.匹配任意的保留两位小数的数字   \d\.\d{2}
3.匹配一个整数或者小数  \d+\.\d+|\d+   \d+\.?\d*   \d+(\.\d+)?

4. 贪婪匹配

正则表达式默认贪婪匹配，总是会在符合量词条件的范围内尽量多匹配。

正则表达式遵循了回溯算法，回溯算法导致了贪婪匹配。

\d{7,12}

adljdkjsljdlj
<.+>
非贪婪匹配（惰性匹配）：总是匹配符合条件范围内尽量小的字符串。

元字符量词 ,在量词后面加一个？，表示去最少的匹配

元字符量词 ? x ：表示按照元字符规则在量词范围内匹配，一旦遇到x就停止

.*?x 匹配任意的内容任意多次遇到x就立即停止

（\d+?x .*?x ）非贪婪匹配在爬虫中会常用

# 身份证号
# 15位  全数字 首位不为0
# 18位  前17位全数字 首位不为0  最后一位可能是x和数字
[1-9](\d{16}(\d|x)|\d{14})
[1-9](\d{16}[\dx]|\d{14})
[1-9]\d{14}(\d{2}[\dx])?

上一篇： Python作用域疑问记录

下一篇：怎么把AI文件导入PS分层?

python day25 正则表达式

2019.4.30 s21 day25笔记总结

正则表达式

1. 正则表达式

2. 元字符

3. 量词

4. 贪婪匹配

解析PHP正则表达式元字符

Python命令行参数解析模块optparse使用实例

Python模块：logging

Python小白必备的8个最常用的内置函数（推荐）

python使用PyCharm进行远程开发和调试

在Python的框架中为MySQL实现restful接口的教程

python3.0 模拟用户登录,三次错误锁定的实例

详解python读取image

python基础教程之获取本机ip数据包示例

python3 实现一行输入,空格隔开的示例