7.8 使用正则表达式查询
正则表达式通常被用来检索或替换那些符合某个模式的文本内容,根据指定的匹配模式匹配文本中符合要求的特殊字符串。例如,从一个文本文件中提取电话号码,查找一篇文章中重复的单词或者替换用户输入的某些敏感词语等,这些地方都可以使用正则表达式。正则表达式强大而且灵活,可以应用于非常复杂的查询。
MySQL中使用REGEXP关键字指定正则表达式的字符匹配模式。表7.3列出了REGEXP操作符中常用字符匹配列表。
表7.3 正则表达式常用字符匹配列表
下文将详细介绍在MySQL中如何使用正则表达式。
7.8.1 查询以特定字符或字符串开头的记录
字符‘^’匹配以特定字符或者字符串开头的文本。
【例7.68】在fruits表中,查询f_name字段以字母‘b’开头的记录,SQL语句如下:
fruits表中有3条记录的f_name字段值是以字母b开头的,返回结果有3条记录。
【例7.69】在fruits表中,查询f_name字段以“be”开头的记录,SQL语句如下:
只有berry是以“be”开头的,所以查询结果中只有1条记录。
7.8.2 查询以特定字符或字符串结尾的记录
字符‘$’匹配以特定字符或者字符串结尾的文本。
【例7.70】在fruits表中,查询f_name字段以字母‘y’结尾的记录,SQL语句如下:
fruits表中有4条记录的f_name字段值是以字母‘y’结尾的,返回结果有4条记录。
【例7.71】在fruits表中,查询f_name字段以字符串“rry”结尾的记录,SQL语句如下:
fruits表中有3条记录的f_name字段值是以字符串“rry”结尾的,返回结果有3条记录。
7.8.3 用符号"."来替代字符串中的任意一个字符
字符‘.’匹配任意一个字符。
【例7.72】在fruits表中,查询f_name字段值包含字母‘a’与‘g’且两个字母之间只有一个字母的记录,SQL语句如下:
查询语句中‘a.g’指定匹配字符中要有字母a和g,且两个字母之间包含单个字符,并不限定匹配的字符的位置和所在查询字符串的总长度,因此orange和mango都符合匹配条件。
7.8.4 使用"*"和"+"来匹配多个字符
星号‘*’匹配前面的字符任意多次,包括0次。加号‘+’匹配前面的字符至少一次。
【例7.73】在fruits表中,查询f_name字段值以字母‘b’开头且‘b’后面出现字母‘a’的记录,SQL语句如下:
星号‘*’可以匹配任意多个字符,blackberry和berry中字母b后面并没有出现字母a,但是也满足匹配条件。
【例7.74】在fruits表中,查询f_name字段值以字母‘b’开头且‘b’后面出现字母‘a’至少一次的记录,SQL语句如下:
‘a+’匹配字母‘a’至少一次,只有banana满足匹配条件。
7.8.5 匹配指定字符串
正则表达式可以匹配指定字符串,只要这个字符串在查询文本中即可,如要匹配多个字符串,多个字符串之间使用分隔符‘|’隔开。
【例7.75】在fruits表中,查询f_name字段值包含字符串“on”的记录,SQL语句如下:
可以看到,f_name字段的melon、lemon和coconut 3个值中都包含有字符串“on”,满足匹配条件。
【例7.76】在fruits表中,查询f_name字段值包含字符串“on”或者“ap”的记录,SQL语句如下:
可以看到,f_name字段的melon、lemon和coconut 3个值中都包含有字符串“on”,apple和apricot值中包含字符串“ap”,满足匹配条件。
提示
之前介绍过,LIKE运算符也可以匹配指定的字符串,但与REGEXP不同,LIKE匹配的字符串如果在文本中间出现,则找不到它,相应的行也不会返回。REGEXP在文本内进行匹配,如果被匹配的字符串在文本中出现,REGEXP将会找到它,相应的行也会被返回。对比结果如【例7.77】所示。
【例7.77】在fruits表中,使用LIKE运算符查询f_name字段值为“on”的记录,SQL语句如下:
mysql> SELECT * FROM fruits WHERE f_name LIKE 'on'; Empty set (0.00 sec)
f_name字段没有值为“on”的记录,返回结果为空。读者可以体会一下两者的区别。
7.8.6 匹配指定字符中的任意一个
方括号“[]”指定一个字符集合,只匹配其中任何一个字符,即为所查找的文本。
【例7.78】在fruits表中,查找f_name字段中包含字母‘o’或者‘t’的记录,SQL语句如下:
由查询结果可以看到,所有返回的记录的f_name字段的值中都包含有字母o或者t,或者两个都有。
方括号“[]”还可以指定数值集合。
【例7.79】在fruits表中,查询s_id字段中包含4、5或者6的记录,SQL语句如下:
在查询结果中,s_id字段值中只要有3个数字中的1个即为匹配记录字段。
匹配集合“[456]”也可以写成“[4-6]”,即指定集合区间。例如,“[a-z]”表示集合区间为从a~z的字母,“[0-9]”表示集合区间为所有数字。
7.8.7 匹配指定字符以外的字符
“[^字符集合]”匹配不在指定集合中的任何字符。
【例7.80】在fruits表中,查询f_id字段中包含字母a~e和数字1~2以外字符的记录,SQL语句如下:
返回记录中的f_id字段值中包含指定字母和数字以外的值,如s、m、o、t等,这些字母均不在a~e与1~2之间,满足匹配条件。
7.8.8 使用{n,}或者{n,m}来指定字符串连续出现的次数
“字符串{n,}”表示至少匹配n次前面的字符;“字符串{n,m}”表示匹配前面的字符串不少于n次,不多于m次。例如,a{2,}表示字母a连续出现至少2次,也可以大于2次;a{2,4}表示字母a连续出现最少2次,最多不能超过4次。
【例7.81】在fruits表中,查询f_name字段值出现字母‘x’至少2次的记录,SQL语句如下:
可以看到,f_name字段的“xxxx”包含了4个字母‘x’,“xxtt”包含两个字母‘x’,均为满足匹配条件的记录。
【例7.82】在fruits表中,查询f_name字段值出现字符串“ba”最少1次、最多3次的记录,SQL语句如下:
可以看到,f_name字段的xbabay值中“ba”出现了2次,banana中出现了1次,xbababa中出现了3次,都满足匹配条件的记录。