精通正則表達式，看完這篇就行了

哈嘍，大家好，我是指北君。

新年快樂，開工大吉

對于正則表達式，不知道你有沒這種感覺，總是能按照需求寫出來一些，但是不執(zhí)行一下總覺得不靠譜。今天我們來簡單的看看正則表單時

正則表達式

一般你會用正則做什么，大部分都是做一些字符串的檢查？下面有幾個問題，不妨試著通過正則表達式看你是否能夠解決？

校驗密碼是否包含字母大小寫、數(shù)字、特殊字符（!@#￥%^&）且長度為6到12位
將數(shù)字12345678用貨幣格式（每3位一個,）最終效果：12,345,678
替換一段文字中的占位字符部分（比如${}包含的內(nèi)容），類似ES6中的模板語法

定義

正則表達式，又稱規(guī)則表達式,（Regular Expression，在代碼中常簡寫為regex、regexp或RE），是一種文本模式，包括普通字符（例如，a 到 z 之間的字母）和特殊字符（稱為"元字符"），是計算機科學的一個概念。正則表達式使用單個字符串來描述、匹配一系列匹配某個句法規(guī)則的字符串，通常被用來檢索、替換那些符合某個模式（規(guī)則）的文本。

正則表達式是對字符串操作的一種邏輯公式，就是用事先定義好的一些特定字符、及這些特定字符的組合，組成一個“規(guī)則字符串”，這個“規(guī)則字符串”用來表達對字符串的一種過濾邏輯。

作用

回顧下上面的3個問題，我們使用正則基本上也就是完成類似的這些工作，從功能上我們可以劃分為：

匹配檢查目標字符串是否與指定的規(guī)則匹配。比如密碼強度校驗、手機號碼校驗、URL地址校驗等等，一般用來對一段字符串進行格式校驗。
替換按規(guī)則對字符串內(nèi)容進行替換。比如將一段文字中的特殊字符替換成空字符串，主要實現(xiàn)對文本按指定規(guī)則進行內(nèi)容的替換
截取找到字符串中特定規(guī)則的片段。可以用來提取目標字符串中滿足規(guī)則的片段

結構

正則表達式由普通字符以及元字符組成。其中普通字符包含0-9、a-z、A-Z以及各種符號；元字符則類似+ ? \d \s 這種具有特殊含義的字符。

字符

普通字符

字符	描述
[ABC]	匹配所有[...]內(nèi)的字符
[^ABC]	匹配所有非[...]內(nèi)的字符
[A-Z]	匹配A-Z區(qū)間的字符
[a-d[m-p]]	匹配a-d或者m-p區(qū)間的字符
[a-z&&[^bc]]	匹配a-z區(qū)間且不包含b c的字符

非打印字符

字符	描述
\cx	匹配由x指明的控制字符。例如， \cM 匹配一個 Control-M 或回車符。x 的值必須為 A-Z 或 a-z 之一。否則，將 c 視為一個原義的 'c' 字符。
\f	匹配一個換頁符。等價于 \x0c 和 \cL。
\n	匹配一個換行符。等價于 \x0a 和 \cJ。
\r	匹配一個回車符。等價于 \x0d 和 \cM。
\s	匹配任何空白字符，包括空格、制表符、換頁符等等。等價于 [ \f\n\r\t\v]。注意 Unicode 正則表達式會匹配全角空格符。
\S	匹配任何非空白字符。等價于 [^ \f\n\r\t\v]。
\t	匹配一個制表符。等價于 \x09 和 \cI。
\v	匹配一個垂直制表符。等價于 \x0b 和 \cK。

特殊字符

特殊字符串	描述
^	匹配輸入字符串的開始位置，除非在方括號表達式中使用，當該符號在方括號表達式中使用時，表示不接受該方括號表達式中的字符集合。要匹配 ^ 字符本身，請使用 ^。
$	匹配輸入字符串的結尾位置。如果設置了 RegExp 對象的 Multiline 屬性，則也匹配或。要匹配字符本身，請使用 $。
\	將下一個字符標記為或特殊字符、或原義字符、或向后引用、或八進制轉(zhuǎn)義符。例如， 'n' 匹配字符 'n'。'\n' 匹配換行符。序列 '\' 匹配 ""，而 '(' 則匹配 "("。
*	匹配前面的子表達式零次或多次。要匹配 * 字符，請使用 *。
+	匹配前面的子表達式一次或多次。要匹配 + 字符，請使用 +。
.	匹配除換行符 \n 之外的任何單字符。要匹配 . ，請使用 . 。
?	匹配前面的子表達式零次或一次，或指明一個非貪婪限定符。要匹配 ? 字符，請使用 ?。
[	標記一個中括號表達式的開始。要匹配 [，請使用 [。
{	標記限定符表達式的開始。要匹配 {，請使用 {。
\|	指明兩項之間的一個選擇。要匹配 \|，請使用 \\|。
()	標記一個子表達式的開始和結束位置。子表達式可以獲取供以后使用。要匹配這些字符，請使用 ( 和 )。

限定符

限定符	描述
*	匹配前面的子表達式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。* 等價于 {0,}。
+	匹配前面的子表達式一次或多次。例如，zo+ 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等價于 {1,}。
?	匹配前面的子表達式零次或一次。例如，do(es)? 可以匹配 "do" 、 "does"、 "doxy" 中的 "do" 。? 等價于 {0,1}。
{n}	n 是一個非負整數(shù)。匹配確定的 n 次。例如，o{2} 不能匹配 "Bob" 中的 o，但是能匹配 "food" 中的兩個 o
{n,}	n 是一個非負整數(shù)。至少匹配n 次。例如，o{2,} 不能匹配 "Bob" 中的 o，但能匹配 "foooood" 中的所有 o。o{1,} 等價于 o+。o{0,} 則等價于 o*。
{n,m}	m 和 n 均為非負整數(shù)，其中 n <= m。最少匹配 n 次且最多匹配 m 次。例如，o{1,3} 將匹配 "fooooood" 中的前三個 o。o{0,1} 等價于 o?。請注意在逗號和兩個數(shù)之間不能有空格。

定位符

字符	描述
^	匹配輸入字符串開始的位置
$	匹配輸入字符串結尾的位置。
\b	匹配一個單詞邊界，即字與空格間的位置。
\B	非單詞邊界匹配。

規(guī)則

匹配
貪婪匹配、惰性匹配
貪婪匹配與惰性匹配影響的是被量詞修飾的子表達式的匹配行為，貪婪模式在整個表達式匹配成功的前提下，盡可能多的匹配，而非貪婪模式在整個表達式匹配成功的前提下，盡可能少的匹配（惰性模式：限定符后加上?）

  源字符串：...hello Regex
 !
...
  貪婪模式：.*
 -> hello Regex
 !

  惰性模式：.*?
 -> hello Regex

回溯
正則表達式匹配目標字符串時，它從左到右逐個測試表達式的組成部分，看是否能找到匹配項。在遇到量詞時，需要決定何時嘗試匹配更多字符。在遇到分支時，必須從可選項中選擇一個嘗試匹配。每當正則做類似的決定時，如果有必要，都會記錄其他選擇，以便匹配不成功時進行回溯，到最后一個決策點，再重新進行匹配。

我們可以簡單的理解為，當正則匹配存在多種情況時，出現(xiàn)失敗后的重試機制，直到所有情況都嘗試失敗才會最終失敗。要注意有時這是非常耗費性能的

  正則：ab{1,3}c 源字符串：abc
  第一次匹配：a匹配到a
  第二次匹配：b{1,3}匹配到b
  第三次匹配：b{1,3}匹配到c，因為貪婪模式，盡可能多的匹配，當匹配到b后，會繼續(xù)，碰到c，匹配失敗，回溯最近一次成功的狀態(tài)
  第四次匹配：b{1,3}匹配到b
  第五次匹配：c匹配到c，批次成功
為了減少回溯造成的性能問題，我們應該盡可能地明確需要匹配的目標字符，避免貪婪模式，比如使用b{1,3}?

分組、引用和斷言
分組：語法()

按括號從左到右，從外到內(nèi)依次為分組編號
使用(?<組名>)方式顯示分配組名稱
斷言非分組

示例：
  (A)(B(C)) 則會對應多個分組：
  0: (A)(B(C))
  1: (A)
  2: (B(C))
  3: (C)

引用：語法\組號

通過\組號引用分組，減少重復

  // 引用主要是為了減少輸入，但要注意正確引用
  Pattern.compile("(###).*(\\1)").matcher("### this is content ###")

斷言：

(?=pattern) 零寬正向先行斷言(前瞻)
(?!pattern) 零寬負向先行斷言(否定前瞻)
(?<=pattern) 零寬正向后行斷言(正向后視)
(?

第一個問題的解決方案就用到了斷言
只判斷，不匹配

模式

在javascript中，有i、g、m、s分別對應了不區(qū)分大小寫、全局匹配、多行匹配以及包含換行符的元字符.匹配，而在Pattern中則提供了下面的幾種模式：

UNIX_LINES 換行符統(tǒng)一認定為\n，（window系統(tǒng)默認是\r\n）
CASE_INSENSITIVE 大小寫不敏感，對應i
COMMENTS 表達式中的空格及#開頭的注釋內(nèi)容被忽略
MULTILINE 多行模式，對應m
LITERAL 字面值解析模式，元字符作為普通字符處理
DOTALL .可以匹配任何字符，包括行結束符，對應上面的s
UNICODE_CASE 配合CASE_INSENSITIVE實現(xiàn)對UNICODE大小寫不敏感
CANON_EQ 啟用規(guī)范等價，比如"a\u030A"會匹配"?"
UNICODE_CHARACTER_CLASS 啟用Unicode版本的預定義字符類和POSIX字符類，這樣類似\w的匹配就不局限于英文字符了

元字符

所謂元字符就是指那些在正則表達式中具有特殊意義的專用字符，可以用來規(guī)定其前導字符（即位于元字符前面的字符）在目標對象中的出現(xiàn)模式。下面整理了元字符以及其對應的功能。

字符	描述
\	將下一個字符標記為一個特殊字符、或一個原義字符、或一個向后引用、或一個八進制轉(zhuǎn)義符。例如，'n' 匹配字符 "n"。'\n' 匹配一個換行符。序列 '\' 匹配 "" 而 "(" 則匹配 "("。
^	匹配輸入字符串的開始位置。如果設置了 RegExp 對象的 Multiline 屬性，^ 也匹配 '\n' 或 '\r' 之后的位置。
$	匹配輸入字符串的結束位置。如果設置了RegExp 對象的 Multiline 屬性，$ 也匹配 '\n' 或 '\r' 之前的位置。
*	匹配前面的子表達式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。* 等價于{0,}。
+	匹配前面的子表達式一次或多次。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等價于 {1,}。
?	匹配前面的子表達式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等價于 {0,1}。
{n}	n 是一個非負整數(shù)。匹配確定的 n 次。例如，'o{2}' 不能匹配 "Bob" 中的 'o'，但是能匹配 "food" 中的兩個 o。
{n,}	n 是一個非負整數(shù)。至少匹配n 次。例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o{1,}' 等價于 'o+'。'o{0,}' 則等價于 'o*'。
{n,m}	m 和 n 均為非負整數(shù)，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如，"o{1,3}" 將匹配 "fooooood" 中的前三個 o。'o{0,1}' 等價于 'o?'。請注意在逗號和兩個數(shù)之間不能有空格。
?	當該字符緊跟在任何一個其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面時，匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜索的字符串，而默認的貪婪模式則盡可能多的匹配所搜索的字符串。例如，對于字符串 "oooo"，'o+?' 將匹配單個 "o"，而 'o+' 將匹配所有 'o'。
.	匹配除 "\n" 之外的任何單個字符。要匹配包括 '\n' 在內(nèi)的任何字符，請使用象 '[.\n]' 的模式。
(pattern)	匹配 pattern 并獲取這一匹配。所獲取的匹配可以從產(chǎn)生的 Matches 集合得到，在VBScript 中使用 SubMatches 集合，在JScript 中則使用 9 屬性。要匹配圓括號字符，請使用 '(' 或 ')'。
(?:pattern)	匹配 pattern 但不獲取匹配結果，也就是說這是一個非獲取匹配，不進行存儲供以后使用。這在使用 "或" 字符 (\|) 來組合一個模式的各個部分是很有用。例如， 'industr(?:y\|yes) 就是一個比 'industry\|industries' 更簡略的表達式。
(?=pattern)	正向預查，在任何匹配 pattern 的字符串開始處匹配查找字符串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以后使用。例如，'Windows (?=95\|98\|NT\|2000)' 能匹配 "Windows 2000" 中的 "Windows" ，但不能匹配 "Windows 3.1" 中的 "Windows"。預查不消耗字符，也就是說，在一個匹配發(fā)生后，在最后一次匹配之后立即開始下一次匹配的搜索，而不是從包含預查的字符之后開始。
(?!pattern)	負向預查，在任何不匹配 pattern 的字符串開始處匹配查找字符串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以后使用。例如'Windows (?!95\|98\|NT\|2000)' 能匹配 "Windows 3.1" 中的 "Windows"，但不能匹配 "Windows 2000" 中的 "Windows"。預查不消耗字符，也就是說，在一個匹配發(fā)生后，在最后一次匹配之后立即開始下一次匹配的搜索，而不是從包含預查的字符之后開始。
x\|y	匹配 x 或 y。例如，'z\|food' 能匹配 "z" 或 "food"。'(z\|f)ood' 則匹配 "zood" 或 "food"。
[xyz]	字符集合。匹配所包含的任意一個字符。例如， '[abc]' 可以匹配 "plain" 中的 'a'。
[^xyz]	負值字符集合。匹配未包含的任意字符。例如， '[^abc]' 可以匹配 "plain" 中的'p'。
[a-z]	字符范圍。匹配指定范圍內(nèi)的任意字符。例如，'[a-z]' 可以匹配 'a' 到 'z' 范圍內(nèi)的任意小寫字母字符。
[^a-z]	負值字符范圍。匹配任何不在指定范圍內(nèi)的任意字符。例如，'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范圍內(nèi)的任意字符。
\b	匹配一個單詞邊界，也就是指單詞和空格間的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B	匹配非單詞邊界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\cx	匹配由 x 指明的控制字符。例如， \cM 匹配一個 Control-M 或回車符。x 的值必須為 A-Z 或 a-z 之一。否則，將 c 視為一個原義的 'c' 字符。
\d	匹配一個數(shù)字字符。等價于 [0-9]。
\D	匹配一個非數(shù)字字符。等價于 [^0-9]。
\f	匹配一個換頁符。等價于 \x0c 和 \cL。
\n	匹配一個換行符。等價于 \x0a 和 \cJ。
\r	匹配一個回車符。等價于 \x0d 和 \cM。
\s	匹配任何空白字符，包括空格、制表符、換頁符等等。等價于 [ \f\n\r\t\v]。
\S	匹配任何非空白字符。等價于 [^ \f\n\r\t\v]。
\t	匹配一個制表符。等價于 \x09 和 \cI。
\v	匹配一個垂直制表符。等價于 \x0b 和 \cK。
\w	匹配包括下劃線的任何單詞字符。等價于'[A-Za-z0-9_]'。
\W	匹配任何非單詞字符。等價于 '[^A-Za-z0-9_]'。
\xn	匹配 n，其中 n 為十六進制轉(zhuǎn)義值。十六進制轉(zhuǎn)義值必須為確定的兩個數(shù)字長。例如，'\x41' 匹配 "A"。'\x041' 則等價于 '\x04' & "1"。正則表達式中可以使用 ASCII 編碼。
\num	匹配 num，其中 num 是一個正整數(shù)。對所獲取的匹配的引用。例如，'(.)\1' 匹配兩個連續(xù)的相同字符。
\n	標識一個八進制轉(zhuǎn)義值或一個向后引用。如果 \n 之前至少 n 個獲取的子表達式，則 n 為向后引用。否則，如果 n 為八進制數(shù)字 (0-7)，則 n 為一個八進制轉(zhuǎn)義值。
\nm	標識一個八進制轉(zhuǎn)義值或一個向后引用。如果 \nm 之前至少有 nm 個獲得子表達式，則 nm 為向后引用。如果 \nm 之前至少有 n 個獲取，則 n 為一個后跟文字 m 的向后引用。如果前面的條件都不滿足，若 n 和 m 均為八進制數(shù)字 (0-7)，則 \nm 將匹配八進制轉(zhuǎn)義值 nm。
\nml	如果 n 為八進制數(shù)字 (0-3)，且 m 和 l 均為八進制數(shù)字 (0-7)，則匹配八進制轉(zhuǎn)義值 nml。
\un	匹配 n，其中 n 是一個用四個十六進制數(shù)字表示的 Unicode 字符。例如， \u00A9 匹配版權符號 (?)。

示例

下面來看下上面3個問題通過正則具體如何解決吧...

問題1，主要使用了斷言來實現(xiàn)，當然你也可以拆分成多個正則進行匹配來達到相同的效果

    @Test
    public void checkPassword(){
        String password = "aaa123@Z";
        Pattern compile = Pattern.compile("(?=.*\\d+)(?=.*[a-z]+)(?=.*[A-Z]+)(?=.*[!@#$%^&]+)[a-zA-Z\\d!@#$%^&]{6,12}");
        log.info(">>> {}", compile.matcher(password).matches());
    }

問題2，同樣借助了斷言，實現(xiàn)字符串的查找，最終實現(xiàn)替換，當然我們替換的不是字符，而是匹配的位置

    @Test
    public void scientific(){
        String number = "123456789";
        String result = number.replaceAll("(?=\\B(\\d{3})+$)", ",");
        log.info(">> {}", result);
    }

問題3，通過分組實現(xiàn)字符串片段的查找，通過變量上下文重新組件字符串

    @Test
    public void replaceHolder(){
        Map context = new HashMap<>();
        context.put("company","north");
        context.put("project","blob");
        context.put("model","regex");

        String packages = "com.{company}.{project}.{model}.*";

        Pattern pattern = Pattern.compile("(\\{[^}]*\\})");
        Matcher matcher = pattern.matcher(packages);

        StringBuffer result = new StringBuffer();
        while (matcher.find()){
            String group = matcher.group();
            String key = group.substring(1, group.length()-1);
            matcher.appendReplacement(result, context.getOrDefault(key,"") );
        }
        matcher.appendTail(result);
        log.info( result.toString() );
    }

工具庫

https://www.runoob.com/regexp/regexp-operator.html

擴展知識

NFA引擎 DFA引擎

結束語

正則表達式是一種書寫簡單，功能強大且常用的技術，基本所有的編程語言都有其相關的實現(xiàn)與支持。因此深入了解正則實現(xiàn)原理與書寫規(guī)范非常重要。

該篇主要通過簡單的幾個示例介紹了正則表達式的功能以及一些基本結構與功能，希望能夠拋磚引玉，讓你對正則表達式有更深的認識。

當前標題：精通正則表達式，看完這篇就行了
當前鏈接：http://m.jiaotiyi.com/article/cocschc.html

網(wǎng)站建設知識

精通正則表達式，看完這篇就行了

正則表達式

定義

作用

結構

字符

規(guī)則

元字符

示例

工具庫

擴展知識

結束語

其他資訊

網(wǎng)站建設知識

精通正則表達式，看完這篇就行了

正則表達式

定義

作用

結構

字符

規(guī)則

元字符

示例

工具庫

擴展知識

結束語

其他資訊

精通正則表達式，看完這篇就行了