站長資訊網
        最全最豐富的資訊網站

        正則表達式之回溯

        關于“回溯”我也是第一次接觸,對它也不算很了解。下面就把我所了解的做為一個心德記錄下來,以備查看。

        我們所使用的正則表達式的匹配基礎大概分為:優先選擇最左端(最靠開頭)的匹配結果和標準的匹配量詞(*、+、?和{m, n})是匹配優先的。

        “優先選擇最左端的匹配”顧名思義就是從字符串的起始位置開始匹配直到匹配結束這是基礎;“標準匹配量詞”又分為“非確定型有窮自動機(NFA)”也可以叫做“表達式主導”;另外一種是“確定型有窮自動機(DFA)”也可以叫做“文本主導”。我們目前在JavaScript中所使用的正則表達式為“表達式主導”。表達式主導和文本主導解釋起來有些麻煩,先看來一個例子可能會清楚些。

        復制代碼 代碼如下:
        // 使用正則表達式匹配文本
        var reg = /to(nite|knight|night)/;
        var str = ‘doing tonight’;
        reg.test(str);

        在上面的這個例子中,第一個元素[t],它將會重復嘗試,直到目標字符串中找到‘t’為止。之后,就檢查緊隨其后的字符是否能由[o]匹配,如果能,就檢查下面的元素(nite|knight|night)。它的真正含義是“nite”或者“knight”或者“night”。引擎會依次嘗試這3種可能。嘗試[nite]的過程是先嘗試[n],然后[i],然后[t],最后是[e]。如果這種嘗試失敗,引擎會嘗試另一種可能,如此繼續下去,直到匹配成功或是報告失敗。表達式中的控制權在不同的元素之間轉換,所以稱為“表達式主導”。

            同樣是上面的例子“文本主導”在掃描字符串時,會記錄當前有效的所有匹配可。當引擎移動到t時,它會在當前處理的匹配可能中添加一個潛在的可能:

        字符串中的位置 正則表達中的位置
        ……doing tonight 可能的匹配位置:/to(nite|knight|nigth)/

         

        接下來掃描的每個字符,都會更新當前的可能匹配序列。繼續掃描兩個字符以后的情況是:

         

        字符串中的位置 正則表達中的位置
        ……doing tonight 可能的匹配位置:/to(nite|knight|nigth)/

         

        有效的可能匹配變為兩個(knight被淘汰出局)。掃描到g時,就只剩下一個可能匹配了。當h和t匹配完成后,引擎發現匹配已經完成,報告成功?!拔谋局鲗А笔且驗樗鼟呙璧淖址械拿總€字符都對引擎進行了控制。

            如果想要弄明白“表達式主導”是如何工作的,那就要看一下我們今天的主題“回溯(backtracking)”。回溯就像是在走岔路口,當遇到岔路的時候就先在每個路口做一個標記。如果走了死路,就可以照原路返回,直到遇見之前所做過的標記,標記著還未嘗試過的道路。如果那條路也走不能,可以繼續返回,找到下一個標記,如此重復,直到找到出路,或者直到完成所有沒有嘗試過的路。

            在許多情況下,正則引擎必須在兩個(或更多)選項中做出選擇。當遇到/……x?……/時,引擎必須是否嘗試匹配X。對于/……X+……/的情況,毫無疑問,X至少嘗試匹配一次――因為加號要求必須匹配至少一次。第一個X匹配之后,此要求已經滿足,需要決定是否嘗試下一個X。如果決定進行,還要決定是否匹配第三個X,第四個X,如此繼續。每次選擇,其實就是做一個標記,用于提示此處還有另一個可能的選擇,保留起來以備用。在回溯的過程中要考慮兩個要點:哪個分支應當首先選擇?回溯的時候使用的是哪個(或者是哪些個)之前保存的分支?

            第一個問題是按下面這條重要原則來選擇的:

                如果需要在“進行嘗試”和“路過嘗試”之間選擇,對于匹配優先量詞,引擎會優先選擇“進行嘗試”,而對于忽略優先量詞,會選擇“路過嘗試”。

            第二個問題是按以下這條原則:

                距離當前最近儲存的選項就是當本地失敗強制回溯時返回的。使用的原則是LIFO(last in first out,后進先出)。

            我們先來看幾個在道路中做標記的例子:

                1、未進行回溯的匹配

                    用[ab?c]來匹配“abc”。[a]匹配之后,匹配的當前狀態如下:

        “abc” ab?c

                    現在輪到[b?]了,正則引擎需要決定:是需要嘗試[b]呢,還是跳過?因為[?]是匹配優先的,它會嘗試匹配。但是,為了確保在這個嘗試最終失敗之后能夠恢復,引擎會把:

        “abc” ab?c

                    添加到備用狀態序列中。也就是說,稍后引擎可能從下面的位置繼續匹配:從正則表達式中的[b?]之后,字符串的c之前(也就是說當前的位置)匹配。這實際上就是跳過[b]的匹配,而問題容許這樣做。引擎做好標記后,就會繼續向前檢查[b]。在示例中,它能夠匹配,所以新的當前狀態變為:

        “abc” ab?c

                    最終的[c]也能成功匹配,所以整個匹配完成。備用狀態不再需要了,所以不再保存它們。

                2、進行了回溯的匹配

                    下面要匹配的文本是“ac”,在嘗試[b]之前,一切都與之前的過程相同。顯然,這次[b]無法匹配。也就是說,對[……?]進行嘗試的路走不通了。因為有一個備用狀態,這個“局部匹配失敗”產工會導致整體匹配失敗。引擎會進行回溯,也就是說,把“當前狀態”切換為最近保存的狀態。

        “ac” ab?c

                    在[b]嘗試之前保存的尚未嘗試的選項。這時候,[c]可以匹配c,所以整個匹配宣告完成。

                3、不成功的匹配

                    現在要匹配的文本是“abx”。在嘗試[b]以前,因為存在問號,保存了這個備用狀態:

        “abx” ab?c

                    [b]能夠匹配,但這條路往下卻走不通了,因為[c]無法匹配x。于是引擎會回溯到之前的狀態,“交還”b給[c]來匹配。顯然,這次測試也失敗了。如果還有其他保存的狀態,回溯會繼續進行,但是此時不存在其他狀態,在字符串中當前位置開始的整個匹配也就宣告失敗。

            目前對正則表達式的回溯只能理解這么多,以后我再慢慢補充吧!

        贊(0)
        分享到: 更多 (0)
        網站地圖   滬ICP備18035694號-2    滬公網安備31011702889846號
        主站蜘蛛池模板: 欧美精品整片300页| 亚洲国产精品嫩草影院在线观看| 久久性精品| 国产精品国产三级专区第1集| 亚洲国产小视频精品久久久三级| 在线欧美v日韩v国产精品v| 久久精品中文騷妇女内射| 久久久久成人精品无码| 久久精品一区二区三区不卡| 亚洲国产美女精品久久久久∴| 国产成人亚洲精品91专区手机 | 尤物国产在线精品福利一区| 日韩国产精品无码一区二区三区| 欧美精品区一级片免费播放| 国产精品高清在线观看| 久久精品国产精品亚洲精品| 国产精品无码无在线观看| 亚洲国产精品无码久久久不卡| 久久99精品久久久久久9蜜桃| 99久久国产主播综合精品| 97久久超碰国产精品2021| 久久精品www人人爽人人| 亚洲精品白浆高清久久久久久 | 精品无码国产自产拍在线观看| 亚洲一区二区三区国产精品| 久久久精品久久久久特色影视| 国产色婷婷精品综合在线| 66精品综合久久久久久久| 久久青草国产精品一区| 99在线精品视频| 第一福利永久视频精品| 91精品最新国内在线播放| 国产精品美女久久久久| 国产精品人人爽人人做我的可爱| 黑人巨大精品欧美| 国产人妖乱国产精品人妖| 久久精品国产亚洲AV嫖农村妇女| 少妇伦子伦精品无码STYLES| 日韩一区精品视频一区二区| 亚洲国产精品VA在线观看麻豆| 亚洲国产精品无码中文字|