应该如何构造复杂的正则表达式

程序员文章站 2022-10-31 20:38:18

文题本来是《如何构造复杂的正则表达式》，但是觉得有些歧义，就感觉正则式本来很简单，我在教人如何将它小事化大一样。正好相反，我的本意是说，即使复杂的正则式也不怕，找出合适的方...

文题本来是《如何构造复杂的正则表达式》，但是觉得有些歧义，就感觉正则式本来很简单，我在教人如何将它小事化大一样。正好相反，我的本意是说，即使复杂的正则式也不怕，找出合适的方法，将其构造出来。

避重就轻

snopo给出的文本是这样的：or and name='zhangsan' and id=001 or age>20 or area='%renmin%' and like，问，如何提取其中正确的sql查询语句。

简要分析可知，中间部分是合乎要求的，只是两端的有若干个like, or, and。构造能够解析合乎sql语法的查询语句的正则表达式，应该是比较复杂的。可是，对于具体的问题，也可以更简单。上述的不良构的sql语句，应该是使用程序自动生成的，它的两端会有一些不符合题意的文本。只要将这些文本去除就可以了。

于是，我写出了正则表达式：s/^(?:(?:or|and|like)\s*)+|\s*(?:(?:or|and|like)\s*)+$//mi;，这样就把多行字串首尾的like, or, and以及可能的空白字符全部去掉了，剩下的内容即为所求。

分而治之

答案发过去之后，snopo显然不是很满意这种“偷懒”的办法。他继续问道，能否写出正则式，用来匹配合符sql语法要求的条件查询语句？（只考虑where部分即可，不必写完整的select。）

的确，从快速解决问题的角度来说，只要能够行之有效地解决，用什么办法都可以；不过从学习知识的角度来说，不避重就轻，而是刨根问底，才是正途。既如此，就看一下如何使用正则，将该sql查询语句解决掉。

最简单的查询语句，应该是真假判断，即 where 1; where true; where false，等等。这样的语句使用正则式，直接/(?:-?\d+|true|false)/i。

稍复杂些的单条语句，可以是左右比较，即

复制代码代码如下:

name like 'zhang%', 或 age>25 ，或 work in ('it', 'hr', 'r&d')

。将其简单化，结构就变为a op b。其中a代表变量，op代表比较操作符，b代表值。

•a: 最简单的a，应该是\w+。考虑到实际情况，变量包含点号或脱字符，例如`table.salary`，可以记为/[\w.`]+/。这是比较笼统的细化。如果要求比较苛刻，还可以做到让脱字符同时在左右两边出现（条件判断）。
•op: where 常用的几种关系比较为：=, <>, >, <, >=, <=, between, like, in。使用简单的正则描述之，成为：/(?:[<>=]{1,2}|between|like|in)/i。
•b: b 的情况又可分为3种：变量，数字，字符串，列表。为简单起见，这里就不考虑算术表达式了。

◦变量的话，直接延用a的定义即可。不赘述。
◦数字：使用/\d+/来定义。不考虑小数和负数了。

◦字符串：包括单引号字串和双引号字串。中间可以包括被转义的引号。我写了一个符合这一要求的引号字串正则表达式，形如：/(['"])(?:\\['"]|[^\\1])*?\1/。不过，由于它只是庞大机器的一个零件，这样写的风险是极其大的。首先，它使用了反向引用；其次，该反向引用使用了全局的反向引用编号。我写了自动生成全局编号的函数，来解决这一问题。不过，这里谈细节是不是太深入了。应该先谈框架，再说细节才对。不应该一入手就陷进细节的汪洋大海。

◦列表：列表是形如(1, 3 , 4) 或 ("it", "hr", "r&d")之类的东东，它由简单变量以逗号相连，两边加上括号组成。列表的单项以i表示，它代表数字|字符串。此时，列表就变为：/$i(?:,i)*?$/。它表示，左括号，一个i，一系列由逗号、i组成的其它列表项（0个或多个），右括号。简单起见没有考虑空白字符。
•至此，可以总结出单条语句的正则框架：s =~ /a op b/i。s在此代表单条语句。
更为复杂的是多条语句，可以由单条语句组成，中间使用 and 或 or 连接。合理地构造单条语句，将其稳定地编制为多条语句，任务就完成了。

沿用上面的示例，以s代表单条语句，那么复合语句c就是 c =~ s(?:(?:or|and) s)*?/。至此，一个初具规模的条件语句解析器就诞生了。下面以python为例，一步一步实现出来。

python实现
重申一句：虽然给出了实现，但是仍请注重思路，忽略代码。

复制代码代码如下:

 
#!/usr/bin/python 
# -*- coding: utf-8 -*- 
# 
#author: rex 
#blog: http://iregex.org 
#filename test.py 
#created: 2010-08-06 17:12 

#generage quoted string; 
#including ' and " string 
#allow \' and \" inside 
index=0 
def gen_quote_str(): 

global index 
index+=1 
char=chr(96+index) 
return r"""(?p<quote_%s>['"])(?:\\['"]|[^'"])*?(?p=quote_%s)"""% (char, char) 


#simple variable 
def a(): 
return r'[\w.`]+' 

#operators 
def op(): 
return r'(?:[<>=]{1,2}|between|like|in)' 


#list item within (,) 
#eg: 'a', 23, a.b, "asdfasdf\"aasdf" 
def item(): 
return r"(?:%s|%s)" % (a(), gen_quote_str()) 


#a complite list, like 
#eg: (23, 24, 44), ("regex", "is", "good") 
def items(): 
return r"""\( \s* 
%s 
(?:,\s* %s)* \s* 
\)""" % (item(), item()) 

#simple comparison 
#eg: a=15 , b>23 
def s(): 
return r"""%s \s* %s \s* (?:\w+| %s | %s )""" % (a(), op(), gen_quote_str(), items()) 

#complex comparison 
# name like 'zhang%' and age>23 and work in ("hr", "it", 'r&d') 
def c(): 
return r""" 
(?ix) %s 
(?:\s* 
(?:and|or)\s* 
%s \s* 
)* 
""" % (s(), s()) 

print "a:\t", a() 
print "op:\t", op() 
print "item:\t", item() 
print "items:\t", items() 
print "s:\t", s() 
print "c:\t", c() 

该代码在我的机器上(ubuntu 10.04, python 2.6.5)运行的结果是：

复制代码代码如下:

 
a: [\w.`]+ 
op: (?:[<>=]{1,2}|between|like|in) 
item: (?:[\w.`]+|(?p<quote_a>['"])(?:\\['"]|[^'"])*?(?p=quote_a)) 
items: \( \s* 
(?:[\w.`]+|(?p<quote_b>['"])(?:\\['"]|[^'"])*?(?p=quote_b)) 
(?:,\s* (?:[\w.`]+|(?p<quote_c>['"])(?:\\['"]|[^'"])*?(?p=quote_c)))* \s* 
\) 
s: [\w.`]+ \s* (?:[<>=]{1,2}|between|like|in) \s* (?:\w+| (?p<quote_d>['"])(?:\\['"]|[^'"])*?(?p=quote_d) | \( \s* 
(?:[\w.`]+|(?p<quote_e>['"])(?:\\['"]|[^'"])*?(?p=quote_e)) 
(?:,\s* (?:[\w.`]+|(?p<quote_f>['"])(?:\\['"]|[^'"])*?(?p=quote_f)))* \s* 
\) ) 
c: 
(?ix) [\w.`]+ \s* (?:[<>=]{1,2}|between|like|in) \s* (?:\w+| (?p<quote_g>['"])(?:\\['"]|[^'"])*?(?p=quote_g) | \( \s* 
(?:[\w.`]+|(?p<quote_h>['"])(?:\\['"]|[^'"])*?(?p=quote_h)) 
(?:,\s* (?:[\w.`]+|(?p<quote_i>['"])(?:\\['"]|[^'"])*?(?p=quote_i)))* \s* 
\) ) 
(?:\s* 
(?:and|or)\s* 
[\w.`]+ \s* (?:[<>=]{1,2}|between|like|in) \s* (?:\w+| (?p<quote_j>['"])(?:\\['"]|[^'"])*?(?p=quote_j) | \( \s* 
(?:[\w.`]+|(?p<quote_k>['"])(?:\\['"]|[^'"])*?(?p=quote_k)) 
(?:,\s* (?:[\w.`]+|(?p<quote_l>['"])(?:\\['"]|[^'"])*?(?p=quote_l)))* \s* 
\) ) \s* 
)* 

请看匹配效果图：

算术表达式

我记得刚才好像提到“为简单起见，这里就不考虑算术表达式了”。不过，解析算术表达式是个非常有趣的话题，只要是算法书，都会提及（中缀表达式转前缀表达式，诸如此类）。当然它也可以使用正则表达式来描述。

其主要思路是：

复制代码代码如下:

 
expr -> expr + term | expr - term | term 
term -> term * factor | term / factor | factor 
factor -> digit | ( expr ) 

以及代码：

复制代码代码如下:

 
#!/usr/bin/python 
# -*- coding: utf-8 -*- 
# 
#author: rex 
#blog: http://jb51.net 
#filename math.py 
#created: 2010-08-07 00:44 

integer=r"\d+" 

factor=r"%s (?:\. %s)?" % (integer, integer) 

term= "%s(?: \s* [*/] \s* %s)* " % (factor, factor) 

expr= "(?x) %s(?: \s* [+-] \s* %s)* " % (term, term) 

print expr 

看一下它的输出和匹配效果图：
应该如何构造复杂的正则表达式

小贴士

•如果不用复杂的正则式就能解决问题，一定不要用。
•如果必须写比较复杂的正则式，请参考以下原则。
•从大处着眼，先理解待解析的文本的整体结构是什么样子，划分为小部件；
•从细处着手，试图实现每一个小部件，力求每一部分都是完整、坚固的，且放在全局也不会冲突。
•合理组装这些部件。
•分而治之的好处：只有某个模块出错，其它部分没错时，可以迅速定位错误，消除bug。
•谨慎使用捕获括号，除非你知道自己在做什么，知道它会有什么副作用，以及是否有可行的解决措施。对于短小的正则式来说，一两个多余的括号是无伤大雅的；但是对于复杂的正则式来说，一对多余的括号可能就是致命的错误。
•尽量使用free-space模式。此时你可以*地添加注释和空白字符，以便提高正则表达式的可读性。

上一篇： php 正则表达式的子模式详解

下一篇：茼蒿菜的作用到底是什么呢

应该如何构造复杂的正则表达式

javascript中如何用构造函数创建对象以及子类的继承？

被误解的写字机器人应该如何为自己正名？

浅析软文应该如何科学的布局关键词

手机网站应该如何做优化？百度移动搜索引擎的排名规则是怎样的？

利用Asp.Net Core的MiddleWare思想如何处理复杂业务流程详解

豆浆喝香蕉能减肥吗？豆浆香蕉的瘦身做法应该如何制作？

长秋膘的季节到了！秋季应该如何预防长秋膘？

在网站的建设中颜色应该如何选择和搭配？

动态构造任意复杂的 Linq Where 表达式

芒果新鲜的应该如何挑选，这些方法一定要收藏

应该如何构造复杂的正则表达式

javascript中如何用构造函数创建对象以及子类的继承？

被误解的写字机器人应该如何为自己正名？

浅析软文应该如何科学的布局关键词

手机网站应该如何做优化？ 百度移动搜索引擎的排名规则是怎样的？

利用Asp.Net Core的MiddleWare思想如何处理复杂业务流程详解

豆浆喝香蕉能减肥吗？豆浆香蕉的瘦身做法应该如何制作？

长秋膘的季节到了！秋季应该如何预防长秋膘？

在网站的建设中 颜色应该如何选择和搭配？

动态构造任意复杂的 Linq Where 表达式

芒果新鲜的应该如何挑选，这些方法一定要收藏

手机网站应该如何做优化？百度移动搜索引擎的排名规则是怎样的？

在网站的建设中颜色应该如何选择和搭配？