Python re模块 subprocess模块
程序员文章站
2022-03-25 15:51:36
'''re模块 内部实现不是Python 而是调用了c的库 re是什么 正则 表达 式子 就是一些带有特殊含义的符号或者符号的组合 作用: 对字符串进行过滤 在一对字符串中找到所关心的内容 你就需要告诉计算机过滤规则是什么样 通过什么方式来告诉计算机 就通过正则表达式 re模块常用方法findall ......
'''
re模块 内部实现不是Python 而是调用了c的库
re是什么
正则 表达 式子
就是一些带有特殊含义的符号或者符号的组合
作用: 对字符串进行过滤
在一对字符串中找到所关心的内容
你就需要告诉计算机过滤规则是什么样
通过什么方式来告诉计算机 就通过正则表达式
re模块常用方法
findall 从左往右查找所有满足条件的字符 返回一个列表
search 返回第一个匹配的字符串 结果封装为对象 span=(0,5)匹配的位置 match匹配的值
match 匹配行首 返回值与search相同
对于search match 匹配的结果通过group来获取
compile 将正则表达式封装为一个正则对象 好处是可以重复使用这个表达式
第一步:
学习正则表达式 各种符号所表示的含义
各种符号
常用的
\w \s \d . ^ $
范围匹配
[] a|b
重复匹配
{} + * ?
分组
()
常用的方法:
findall
search
match
sub
split
2.subprocess
run 返回执行结果对象
call 返回执行状态码
Popen 返回的也是对象 out in err
进程间的数据访问
'''
import re
#待处理字符串
# src = 'hades'
#在字符串中查找所有满足条件的
# print(re.findall('ad',src))
# \w 字母数字下划线
# \W 非字母数字下划线 与\w相反
# print(re.findall('\w',src))
# print(re.findall('\W',src))
# \s 所有不可见字符
# \S 所有可见字符
# print(re.findall('\s',src))
# print(re.findall('\S',src))
# \d 所有数字可见
# \D 所有非数字可见
# print(re.findall('\d',src))
# print(re.findall('\D',src))
# 特殊字符直接匹配
# print(re.findall('\n',src))
# print(re.findall('\t',src))
# . 除了\n以外任意字符
# print(re.findall('.',src))
# \s \w \d . 都是匹配单个字符
#匹配重复字符 * + ? {}
# * 前面的表达式出现任意次
# print(re.findall('\d*','1 12 aa'))
# + 重复1次或多次
# print(re.findall('\d+','1 1221abc41515a aa'))
# ? 重复0次或1次
# print(re.findall('\d?','aa bb a1c 1C1 哈哈哈 123'))
# {n,m} 最少n次 最多m次
# print(re.findall('\d{1,3}','1 12 123 1234 123456'))
# {n} 必须是n次
# print(re.findall('[a-z]{3}','a aa aaa aaaa aaaaa'))
# {,m} 最大m次 0-m
# print(re.findall('[a-z]{,3}','a aa aaa aaaa aaaaa'))
#匹配范围
# | 0|1|2 或
# print(re.findall('0|1|2','12413sdfg'))
# [] 字符集合 括号内的符号不是整体
# print(re.findall('[012]','1982asasa'))
# 在范围匹配时使用 ^ 托字符表示取反
# print(re.findall('[^0-9]','1982asasa'))
#找出范围内 数字0-9 字母a-z A-Z 注意(减号只有在两个字符中间才代表范围,在两边都是普通字符)
# print(re.findall('[0-9a-zA-Z]','1982+asasa'))
# ^ 匹配行首
# print(re.findall('^h','helhhlohh'))
# $ 匹配行尾 注意:写在表达式后面
# print(re.findall('s$','helhhlohs'))
# 单词边界
# print(re.findall('o\\b','hello word hi hades'))
#双斜杠?
# print(re.findall('a\\\\c','aakakja\c'))
#贪婪匹配 * + 注意: 不是固定写法 是一种现象
#会一直匹配到不满足条件为止 用问号来阻止贪婪匹配(匹配最少满足条件的字符数)
# print(re.findall('\w+? ','dfgregersg'))
# print(re.findall('\w*? ','dfgregersg'))
# () 用于给正则表达式分组(group)
#什么时候需要阻止贪婪
# src = '<img src="www.baidupic.shuaiqi.jpg"><img src="www.baidupic.shuaiqi.jpg"><img src="www.baidupic.shuaiqi.jpg">'
#请用正则表达式取图片地址
# print(re.findall('src="(.+?)"',src))
# 了解 加上?: 可以取消括号中的优先级
# print(re.findall('src="(?:.+?)"',src))
subprocess模块
sub 子
process 进程
什么是进程
正在进行中的程序 每当打开一个程序就会开启一个进程
每个进程包含运行程序所需的所有资源
正常情况下,不可以跨进程访问数据
但是有些情况下就是需要访问别的进程数据 提供一个叫做管道的对象 专门用于跨进程通讯
作用: 用于执行系统命令
常用方法:
run 返回一个表示执行结果的对象
call 返回的执行的状态码
总结: subprocess的好处是可以获取指令的执行结果
subprocess执行指令时,可以在子进程中这样