正则表达式函数

    • 当使用多行模式(通过标志启用)时,仅将\n识别为行终止符。此外,不支持(?d)标志,不得使用该标志。
    • 不区分大小写的匹配(通过(?i)标志启用)始终以支持Unicode的方式执行。不过,不支持上下文相关和局部相关的匹配。此外,不支持(?u)标志,不得使用该标志。
    • 不支持代理项对。例如,\uD800\uDC00不被视为U+10000,必须将其指定为\x{10000}。对于没有基字符的不占位标记,会错误地处理边界(\b)。
    • 在字符类(如[A-Z123])中不支持\Q\E,而应将其视为字面量。

    regexp_extract_all(string, pattern) -> array(varchar)

    返回正则表达式patternstring中匹配的子字符串:

    regexp_extract_all(string, pattern, group) -> array(varchar)

    查找string中出现的所有正则表达式pattern实例并返回捕获组编号group

    1. SELECT regexp_extract_all('1a 2b 14m', '(\d+)([a-z]+)', 2); -- ['a', 'b', 'm']

    regexp_extract(string, pattern) -> varchar

    1. SELECT regexp_extract('1a 2b 14m', '\d+'); -- 1

    regexp_extract(string, pattern, group) -> varchar

    查找string中出现的第一个正则表达式pattern实例并返回group

    regexp_like(string, pattern) -> boolean

    计算正则表达式pattern并确定它是否包含在string中。

    该函数与LIKE运算符类似,不过只需在string中包含模式,而无需匹配整个string。换句话说,该函数执行的是包含运算,而不是匹配运算。可以通过使用和$定位模式来匹配整个字符串:

    1. SELECT regexp_like('1a 2b 14m', '\d+b'); -- true

    string中删除由正则表达式pattern匹配的子字符串的每个实例:

    1. SELECT regexp_replace('1a 2b 14m', '\d+[ab] '); -- '14m'

    regexp_replace(string, pattern, replacement) -> varchar

    string中由正则表达式pattern匹配的子字符串的每个实例替换为replacement。可以使用$g(对于编号的组)或${name}(对于命名的组)在replacement中引用捕获组。替换时,可以通过使用反斜杠(\$)进行转义来包含美元符号($):

    regexp_replace(string, pattern, function) -> varchar

    使用function替换string中由正则表达式pattern匹配的子字符串的每个实例。会针对每个匹配项调用lambda expression <lambda> function,其中以数组形式传入。捕获组编号从1开始;整个匹配没有组(如果需要,可以使用圆括号将整个表达式括起来):

      使用正则表达式pattern拆分string并返回一个数组。保留尾随空字符串:

      1. SELECT regexp_split('1a 2b 14m', '\s*[a-z]+\s*'); -- [1, 2, 14, ]