Oracle正则表达式学习总结
程序员文章站
2024-01-22 15:28:40
oracle正则表达式学习总结,form开发中的按行拆分需求:拆分后的行要有规律,并按前后层次排序
需求分析如下: 现有行: 2 , 2.1 , 2.2 , 2.3 3 2.1.1, 2.1.2 ,...
oracle正则表达式学习总结,form开发中的按行拆分需求:拆分后的行要有规律,并按前后层次排序
需求分析如下: 现有行: 2 , 2.1 , 2.2 , 2.3 3 2.1.1, 2.1.2 , 2.1.3 , 2.2.1 , 2.1.1.1, 2.1.1.2,
对 2 进行拆分得到的 结果应该是 2.4 (2.4 是通过 查看历史记录中以2 开头,有一位小数点,小数点后一位最大值,获得该最大值+1 ,得到既是新行的后缀,保证拆分是按照前后顺序递增的)
对 2.1 进行拆分得到的应该是 :2.1.4 首先要保证 每次拆分得到的下一行都是多一位小数点 对2.1 拆分 获取最大后缀 比较对象 时候 应该匹配前缀是2.1的 且只有两位小数点的 (排除前缀符合位数不符合的情况:2.1.1.1 ,2.1.1.2 )
对3 进行拆分 没有历史记录是以 3开头的情况 这时候 就要重新 开始拆分:得到的应该是 3.1
这里的关键就是匹配历史记录进行比较,决定拆分后的最后一位的最大值
匹配的时候不能按照 数字的位数来判断,因为数字有可能是两位数,三位数,应该根据小数点来判断
匹配要使用到 正则表达式: 与php、python一样oracle 的正则表达式函数也是 主要由四个函数实现:相似匹配,定位查找,获取匹配子字符串,替换匹配结果(最重要)
(1)相似匹配: regexp_like()
regexp(source_str,pattern,match_parameter)
第一个参数:原字符串,第二个参数匹配模式,第三个参数匹配选项
第三个参数 匹配选项在这几个函数中都要相似作用(可选) 常用: i:大小写不敏感; c:大小写敏感; n:点号 . 不匹配换行符号; m:多行模式; x:扩展模式,忽略正则表达式中的空白字符。 匹配成功返回true 失败返回 false
我的使用: if regexp_like(del_line_number, '^\d*\.\d*\.\d*$') then --匹配只有两个小数点的数字,字符串
模式中的符号说明:模式需要用一对双引号括起来 ^ 标明字符串的开头, $ 标明字符串的结尾 \d 匹配 一个0-9 的数字 * 号 匹配前面的字符0次或更多次 \. 匹配一个点号,因为点号有其他含义,所以用\作为转义
(2)定位查找字符位置:regexp_instr( )
regexp_instr(source_string ,pattern,position,occurrence ,return_option ,match_parameter ) source_string:输入的字符串 pattern:正则表达式 position:标识从第几个字符开始正则表达式匹配。(默认为1) occurrence:标识第几个匹配组。(默认为1) return_option:0——返回第一个字符出现的位置。1:pattern下一个字符起始位置。 match_parameter:匹配模式 前面两个字段必输:
regexp_instr()
select str, regexp_instr(str,'\.' ) ind , 默认从第一个字符开始查找,查找第一个.号,也可以匹配资格符合要求的字符串,写对匹配格式即可,不一定是单个字符 regexp_instr(str,'\.',1,2) ind , 从第1个字符开始,查找第二个.号所在的位置 regexp_instr(str,'\.',5,2) ind 从第五个字符开始,查找第二个.号的位置,注意最终查找到的字符和字符串的位置是相对于查找字符串的起始位置 from tmp where id='instr'; str ind ind ind --------------- ----- ----- ----- 192.168.0.1 4 8 10
select regexp_instr('192.168.0.1','\.',1,level) ind , -- 点号. 所在的位置 regexp_instr('192.168.0.1','\d',1,level) ind -- 每个数字的位置 from dual connect by level <= 9 连续匹配目标字符串出现的第一次出现的 位置,第二次出现的 位置,直到第九次出现的位置 ind ind ----- ----- 4 1 8 2 10 3 0 5 0 6 0 7 0 9 0 11 -- 第八个数字所在位置为 11 这里不存在第九个数字,匹配不到,返回的地址为0 0 0 -- 没有匹配到时返回为0 ,对应第一位是从1开始,而不是0 开始
我的案例:
v_position_bit := regexp_instr(rec_data.del_line_number,'\.',1,2) -1; -- 第二个小数点的位数,减一
substr(del_line_number,1,v_position_bit) -- 获取字符串中第二个小数点之前的子串
(3) 获取匹配子字符串:regexp_substr()
regexp_substr(source_string ,pattern,position,occurrence ,match_parameter )
regexp_substr()在最初目的是根据字符串中某一个字符,分割字符串形成一个数组之类的
例如: 192.168.233.23 按点号"." 分组 最终结果有四个 :192 168 233 23
注意的是 pattern书写的格式不仅仅要用括号括起来,还要使用中括号括起来
我的案例:
regexp_substr(del_line_number,'[^.]+',1,1) -- 匹配前缀相同,第一个小数点前的字符
select str, regexp_substr(str,'[^,]+') str, regexp_substr(str,'[^,]+',1,1) str, 从第一位开始匹配,获得用逗号分隔字符串之后,第一个‘分割后的子串’ regexp_substr(str,'[^,]+',1,2) str, -- occurrence 第几个匹配组 regexp_substr(str,'[^,]+',2,1) str -- position 从第几个字符开始匹配 from tmp where id='substr'; str str str str str --------------- --------------- --------------- --------------- --------------- 123,234,345 123 123 234 23 12,34.56:78 12 12 34.56:78 2 123456789 123456789 123456789 逗号分割后不存在第二个 23456789(从第二位之后开始分割,没有就是取整体)
(4) 替换匹配结果:regexp_replace()
select str, regexp_replace(str,'020','gz') str, regexp_replace(str,'(\d{3})(\d{3})','<\2\1>') str -- 将第一、第二捕获组交换位置,用尖括号标识出来 from tmp where id='replace'; str str str --------------- --------------- --------------- (020)12345678 (gz)12345678 (020)<456123>78 001517729c28 001517729c28 <517001>729c28
常用匹配选项
需求分析如下: 现有行: 2 , 2.1 , 2.2 , 2.3 3 2.1.1, 2.1.2 , 2.1.3 , 2.2.1 , 2.1.1.1, 2.1.1.2,
对 2 进行拆分得到的 结果应该是 2.4 (2.4 是通过 查看历史记录中以2 开头,有一位小数点,小数点后一位最大值,获得该最大值+1 ,得到既是新行的后缀,保证拆分是按照前后顺序递增的)
对 2.1 进行拆分得到的应该是 :2.1.4 首先要保证 每次拆分得到的下一行都是多一位小数点 对2.1 拆分 获取最大后缀 比较对象 时候 应该匹配前缀是2.1的 且只有两位小数点的 (排除前缀符合位数不符合的情况:2.1.1.1 ,2.1.1.2 )
对3 进行拆分 没有历史记录是以 3开头的情况 这时候 就要重新 开始拆分:得到的应该是 3.1
这里的关键就是匹配历史记录进行比较,决定拆分后的最后一位的最大值
匹配的时候不能按照 数字的位数来判断,因为数字有可能是两位数,三位数,应该根据小数点来判断
匹配要使用到 正则表达式: 与php、python一样oracle 的正则表达式函数也是 主要由四个函数实现:相似匹配,定位查找,获取匹配子字符串,替换匹配结果(最重要)
(1)相似匹配: regexp_like()
regexp(source_str,pattern,match_parameter)
第一个参数:原字符串,第二个参数匹配模式,第三个参数匹配选项
第三个参数 匹配选项在这几个函数中都要相似作用(可选) 常用: i:大小写不敏感; c:大小写敏感; n:点号 . 不匹配换行符号; m:多行模式; x:扩展模式,忽略正则表达式中的空白字符。 匹配成功返回true 失败返回 false
我的使用: if regexp_like(del_line_number, '^\d*\.\d*\.\d*$') then --匹配只有两个小数点的数字,字符串
模式中的符号说明:模式需要用一对双引号括起来 ^ 标明字符串的开头, $ 标明字符串的结尾 \d 匹配 一个0-9 的数字 * 号 匹配前面的字符0次或更多次 \. 匹配一个点号,因为点号有其他含义,所以用\作为转义
(2)定位查找字符位置:regexp_instr( )
regexp_instr(source_string ,pattern,position,occurrence ,return_option ,match_parameter ) source_string:输入的字符串 pattern:正则表达式 position:标识从第几个字符开始正则表达式匹配。(默认为1) occurrence:标识第几个匹配组。(默认为1) return_option:0——返回第一个字符出现的位置。1:pattern下一个字符起始位置。 match_parameter:匹配模式 前面两个字段必输:
regexp_instr()
select str, regexp_instr(str,'\.' ) ind , 默认从第一个字符开始查找,查找第一个.号,也可以匹配资格符合要求的字符串,写对匹配格式即可,不一定是单个字符 regexp_instr(str,'\.',1,2) ind , 从第1个字符开始,查找第二个.号所在的位置 regexp_instr(str,'\.',5,2) ind 从第五个字符开始,查找第二个.号的位置,注意最终查找到的字符和字符串的位置是相对于查找字符串的起始位置 from tmp where id='instr'; str ind ind ind --------------- ----- ----- ----- 192.168.0.1 4 8 10
select regexp_instr('192.168.0.1','\.',1,level) ind , -- 点号. 所在的位置 regexp_instr('192.168.0.1','\d',1,level) ind -- 每个数字的位置 from dual connect by level <= 9 连续匹配目标字符串出现的第一次出现的 位置,第二次出现的 位置,直到第九次出现的位置 ind ind ----- ----- 4 1 8 2 10 3 0 5 0 6 0 7 0 9 0 11 -- 第八个数字所在位置为 11 这里不存在第九个数字,匹配不到,返回的地址为0 0 0 -- 没有匹配到时返回为0 ,对应第一位是从1开始,而不是0 开始
我的案例:
v_position_bit := regexp_instr(rec_data.del_line_number,'\.',1,2) -1; -- 第二个小数点的位数,减一
substr(del_line_number,1,v_position_bit) -- 获取字符串中第二个小数点之前的子串
(3) 获取匹配子字符串:regexp_substr()
regexp_substr(source_string ,pattern,position,occurrence ,match_parameter )
regexp_substr()在最初目的是根据字符串中某一个字符,分割字符串形成一个数组之类的
例如: 192.168.233.23 按点号"." 分组 最终结果有四个 :192 168 233 23
注意的是 pattern书写的格式不仅仅要用括号括起来,还要使用中括号括起来
我的案例:
regexp_substr(del_line_number,'[^.]+',1,1) -- 匹配前缀相同,第一个小数点前的字符
select str, regexp_substr(str,'[^,]+') str, regexp_substr(str,'[^,]+',1,1) str, 从第一位开始匹配,获得用逗号分隔字符串之后,第一个‘分割后的子串’ regexp_substr(str,'[^,]+',1,2) str, -- occurrence 第几个匹配组 regexp_substr(str,'[^,]+',2,1) str -- position 从第几个字符开始匹配 from tmp where id='substr'; str str str str str --------------- --------------- --------------- --------------- --------------- 123,234,345 123 123 234 23 12,34.56:78 12 12 34.56:78 2 123456789 123456789 123456789 逗号分割后不存在第二个 23456789(从第二位之后开始分割,没有就是取整体)
(4) 替换匹配结果:regexp_replace()
select str, regexp_replace(str,'020','gz') str, regexp_replace(str,'(\d{3})(\d{3})','<\2\1>') str -- 将第一、第二捕获组交换位置,用尖括号标识出来 from tmp where id='replace'; str str str --------------- --------------- --------------- (020)12345678 (gz)12345678 (020)<456123>78 001517729c28 001517729c28 <517001>729c28
常用匹配选项
可以通过设置以下表格中的一些匹配选项来进行特定模式的匹配,比如:i表示匹配时忽略大小写、c表示匹配时大小写敏感。
选项 | 描述 | 示例 |
i | 指定大小写不敏感匹配 | regexp_count('albert einstein', 'e', 1, 'i') |
c | 指定大小写敏感匹配 | regexp_count('albert einstein', 'e', 1, 'c') |
n | 指定允许点(.)匹配换行符(char(10)),默认不匹配 | regexp_substr('a' || chr(10) || 'd', 'a.d', 1, 1, 'n') |
m | 指定多行模式,当字符串中有换行时,默认是中止的,指定多行模式以后允许多行匹配。 | regexp_substr('ab' || chr(10) || 'ac', '^a.', 1, 2, 'm'),返回结果是ac,如果把m选项去掉了,则返回空 |
x | 指定忽略空格字符,默认空格匹配不忽略。 | regexp_substr('abcd', 'a b c d', 1, 1, 'x') |
(三)常见元字符
下面是oracle支持的一些常见的元字符,其中包括posix标准的、以及perl正则表达式扩展的元字符,下面不是全部,只是常用到的一些。
元字符 | 说明 |
. | 点号,匹配所支持字符集中的任何字符,null除外。默认也不匹配换行符,除非指定了模式为n。 |
+ | 加号,匹配一个或多个匹配项。 |
* | 星号,匹配0个或多个匹配项。 |
? | 问号,匹配0个或1个匹配项。 |
{m} | 精确匹配m次。 |
{m, } | 匹配至少m次。 |
{m, n} | 匹配至少m次,但是不超过n次。 |
[char...] | 指定匹配一个字符集合。 |
[^char...] | 指定不匹配一个字符集合。 |
[alt1|alt2] | 或(or)的意思,匹配其中一个。 |
(expr) | 对表达式进行分组,视作一个子表达式。 |
\n | 向后引用表达式。 |
\ | 转义符。 |
^ | 起始。 |
$ | 结尾。 |
\d | 匹配数字字符。 |
\d | 匹配非数字字符。 |
\w | 匹配单词字符。 |
\w | 匹配非单词字符。 |
\s | 匹配空白字符。 |
\s | 匹配非空白字符。 |
\a | 仅匹配字符串的开头。 |
\z | 仅匹配字符串的结尾或行结尾之前。 |
\z | 仅匹配字符串的结尾。 |