http://www.cnblogs.com/junyistar/archive/2007/12/03/981186.html正則表達(dá)式參考手冊__Mini版正則表達(dá)式就是由普通字符(例如字符 a 到 z)以及特殊字符(稱為元字符)組成的文字模式。該模式描述在查找文字主體時待匹配的一個或多個字符串。正則表達(dá)式作為一個模板,將某個字符模式與所搜索的字符串進(jìn)行匹配。
本文詳細(xì)地列出了能在正則表達(dá)式中使用,以匹配文本的各種字符。當(dāng)你需要解釋一個現(xiàn)有的正則表達(dá)式時,可以作為一個快捷的參考。更多詳細(xì)內(nèi)容,請參考:Francois Liger,Craig McQueen,Pal Wilton[劉樂亭 譯] C#字符串和正則表達(dá)式參考手冊 北京:清華大學(xué)出版社 2003.2
一. 匹配字符
字符類
匹配的字符
舉 例
\d
從0-9的任一數(shù)字
\d\d匹配72,但不匹配aa或7a
\D
任一非數(shù)字字符
\D\D\D匹配abc,但不匹配123
\w
任一單詞字符,包括A-Z,a-z,0-9和下劃線
\w\w\w\w匹配Ab-2,但不匹配∑£$%*或Ab_@
\W
任一非單詞字符
\W匹配@,但不匹配a
\s
任一空白字符,包括制表符,換行符,回車符,換頁符和垂直制表符
匹配在HTML,XML和其他標(biāo)準(zhǔn)定義中的所有傳統(tǒng)空白字符
\S
任一非空白字符
空白字符以外的任意字符,如A%&g3;等
.
任一字符
匹配除換行符以外的任意字符除非設(shè)置了MultiLine先項(xiàng)
[…]
括號中的任一字符
[abc]將匹配一個單字符,a,b或c.
[a-z]將匹配從a 到z的任一字符
[^…]
不在括號中的任一字符
[^abc]將匹配一個a、b、c之外的單字符,可以a,b或A、B、C
[a-z]將匹配不屬于a-z的任一字符,但可以匹配所有的大寫字母
二. 重復(fù)字符
重復(fù)字符
含 義
舉 例
{n}
匹配前面的字符n次
x{2}匹配xx,但不匹配x或xxx
{n,}
匹配前面的字符至少n次
x{2}匹配2個或更多的x,如xxx,xxx..
{n,m}
匹配前面的字符至少n次,至多m次。如果n為0,此參數(shù)為可選參數(shù)
x{2,4}匹配xx,xxx,xxxx,但不匹配xxxxx
匹配前面的字符0次或1次,實(shí)質(zhì)上也是可選的
x? 匹配x或零個x
+
匹配前面的字符0次或多次
x+ 匹配x或xx或大于0的任意多個x
*
匹配前面的字符0次或更多次
x* 匹配0,1或更多個x
三. 定位字符
定位字符
描 述
^
隨后的模式必須位于字符串的開始位置,如果是一個多行字符串,則必須位于行首。對于多行文本(包含回車符的一個字符串)來說,需要設(shè)置多行標(biāo)志
$
前面的模式必須位于字符串的未端,如果是一個多行字符串,必須位于行尾
\A
前面的模式必須位于字符串的開始位置,忽略多行標(biāo)志
\z
前面的模式必須位于字符串的未端,忽略多行標(biāo)志
\Z
前面的模式必須位于字符串的未端,或者位于一個換行符前
\b
匹配一個單詞邊界,也就是一個單詞字符和非單詞字符中間的點(diǎn)。要記住一個單詞字符是[a-zA-Z0-9]中的一個字符。位于一個單詞的詞首
\B
匹配一個非單詞字符邊界位置,不是一個單詞的詞首
注:定位字符可以應(yīng)用于字符或組合,放在字符串的左端或右端
四. 分組字符
分組字符
定 義
舉 例
()
此字符可以組合括號內(nèi)模式所匹配的字符, 它是一個捕獲組,也就是說模式匹配的字符作為最終設(shè)置了ExplicitCapture選項(xiàng)――默認(rèn)狀態(tài)下字符不是匹配的一部分
輸入字符串為:ABC1DEF2XY
匹配3個從A到Z的字符和1個數(shù)字的正則表達(dá)式:([A-Z]{3}\d)
將產(chǎn)生兩次匹配:Match 1=ABC1;Match 2=DEF2
每次匹配對應(yīng)一個組:Match1 的第一個組=ABC;Match2的第1個組=DEF
有了反向引用,就可以通過它在正則表達(dá)式中的編號以及C#和類Group,GroupCollection來訪問組。如果設(shè)置了ExplicitCapture選項(xiàng),就不能使用組所捕獲的內(nèi)容
(:)
此字符可以組合括號內(nèi)模式所匹配的字符, 它是一個非捕獲組,這意味著模式所的字符將不作為一個組來捕獲,但它構(gòu)成了最終匹配結(jié)果的一部分。它基本上與上面的組類型相同,但設(shè)定了選項(xiàng)ExplicitCapture
輸入字符串為:1A BB SA 1 C
匹配一個數(shù)字或一個A到Z的字母,接著是任意單詞字符的正則表達(dá)式為:(:\d|[A-Z]\w)
它將產(chǎn)生3次匹配:每1次匹配=1A;每2次匹配=BB; 每3次匹配=SA
但是沒有組被捕獲
(<name>)
此選項(xiàng)組合括號內(nèi)模式所匹配的字符,并用尖括號中指定 的值為組命名。在正則表達(dá)式中,可以使用名稱進(jìn)行反向引用,而不必使用編號。即使不設(shè)置ExplicitCapture選項(xiàng),它也是一個捕獲組。這意味著反向引用可以利用組內(nèi)匹配的字符,或者通過Group類訪問
輸入字符串為:Characters in Sienfeld included Jerry Seinfeld,Elaine Benes,Cosno Kramer and George Costanza能夠匹配它們的姓名,并在一個組llastName中捕獲姓的正則表達(dá)式為:\b[A-Z][a-z]+(?<lastName>[A-Z][a-z]+)\b
它產(chǎn)生了4次匹配:First Match=Jerry Seinfeld; Second Match=Elaine Benes; Third Match=Cosmo Kramer; Fourth Match=George Costanza
每一次匹配都對應(yīng)了一個lastName組:
第1次匹配:lastName group=Seinfeld
第2次匹配:lastName group=Benes
第3次匹配:lastName group=Kramer
第4次匹配:lastName group=Costanza
不管是否設(shè)置了選項(xiàng)ExplictCapture,組都將被捕獲
(=)
正聲明。聲明的右側(cè)必須是括號中指定的模式。此模式不構(gòu)成最終匹配的一部分
正則表達(dá)式\S+(?=.NET)要匹配的輸入字符串為:The languages were Java,C#.NET,VB.NET,C,Jscript.NET,Pascal
將產(chǎn)生如下匹配:〕
C#
VB
JScript
(!)
負(fù)聲明。它規(guī)定模式不能緊臨著聲明的右側(cè)。此模式不構(gòu)成最終匹配的一部分
\d{3}(?![A-Z])要匹配的輸入字符串為:123A 456 789 111C
將產(chǎn)生如下匹配:
456
789
(<=)
反向正聲明。聲明的左側(cè)必須為括號內(nèi)的指定模式。此模式不構(gòu)成最終匹配的一部分
正則表達(dá)式(?<=New)([A-Z][a-z]+)要匹配的輸入字符串為:The following states,New Mexico,West Virginia,Washington, New England
它將產(chǎn)生如下匹配:
Mexico
England
(<!)
反向正聲明。聲明的左側(cè)必須不能是括號內(nèi)的指定模式。此模式不構(gòu)成最終匹配的一部分
正則表達(dá)式(?<!1)\d{2}([A-Z])要匹配的輸入字符串如下:123A 456F 789C 111A
它將實(shí)現(xiàn)如下匹配:
56F
89C
(?>)
非回溯組。防止Regex引擎回溯并且防止實(shí)現(xiàn)一次匹配
假設(shè)要匹配所有以“ing”結(jié)尾的單詞。輸入字符串如下:He was very trusing
正則表達(dá)式為:.*ing
它將實(shí)現(xiàn)一次匹配――單詞trusting。“.” 匹配任意字符,當(dāng)然也匹配“ing”。所以,Regex引擎回溯一位并在第2個“t”停止,然后匹配指定的模式“ing”。但是,如果禁用回溯操作:(?>.*)ing
它將實(shí)現(xiàn)0次匹配。“.”能匹配所有的字符,包括“ing”――不能匹配,從而匹配失敗
五. 決策字符
字 符
描 述
舉 例
((regex)yes_regex|no_regex)
如果表達(dá)式regex匹配,那么將試圖匹配表達(dá)式y(tǒng)es。否則匹配表達(dá)式no。正則表達(dá)式no是可先參數(shù)。注意,作出決策的模式寬度為0.這意味著表達(dá)式y(tǒng)es或no 將從與regex表達(dá)式相同的位置開始匹配
正則表達(dá)式(?(\d)dA|A-Z)B)要匹配的輸入字符串為:1A CB 3A 5C 3B
它實(shí)現(xiàn)的匹配是:
1A
CB
3A
((group name or number)yes_regex|no_regex)
如果組中的正則表達(dá)式實(shí)現(xiàn)了匹配,那么試圖匹配yes正則表達(dá)式。否則,試圖匹配正則表達(dá)式no。no是可先的參數(shù)
正則表達(dá)式
(\d7)?-(?(1)\d\d[A-Z]|[A-Z][A-Z]要匹配的輸入字符串為:
77-77A 69-AA 57-B
它實(shí)現(xiàn)的匹配為:
77-77A
-AA
注:上面表中列出的字符強(qiáng)迫處理器執(zhí)行一次if-else決策
六. 替換字符
字 符
描 述
$group
用group指定的組號替換
${name}
替換被一個(?<name>)組匹配的最后子串
$$
替換一個字符$
$&
替換整個的匹配
$^
替換輸入字符串匹配之前的所有文本
$’
替換輸入字符串匹配之后的所有文本
$+
替換最后捕獲的組
$_
替換整個的輸入字符串
注:以上為常用替換字符,不全
七. 轉(zhuǎn)義序列
字 符
描 述
\\
匹配字符“\”
\.
匹配字符“.”
\*
匹配字符“*”
\+
匹配字符“+”
\?
匹配字符“”
\|
匹配字符“|”
\(
匹配字符“(”
\)
匹配字符“)”
\{
匹配字符“{”
\}
匹配字符“}”
\^
匹配字符“^”
\$
匹配字符“$”
\n
匹配換行符
\r
匹配回車符
\t
匹配制表符
\v
匹配垂直制表符
\f
匹配換面符
\nnn
匹配一個8進(jìn)數(shù)字,nnn指定的ASCII字符。如\103匹配大寫的C
\xnn
匹配一個16進(jìn)數(shù)字,nn指定的ASCII字符。如\x43匹配大寫的C
\unnnn
匹配由4位16進(jìn)數(shù)字(由nnnn表示)指定的Unicode字符
\cV
匹配一個控制字符,如\cV匹配Ctrl-V
八. 選項(xiàng)標(biāo)志
選項(xiàng)標(biāo)志
名 稱
I
IgnoreCase
M
Multiline
N
ExplicitCapture
S
SingleLine
X
IgnorePatternWhitespace
注:選項(xiàng)本身的信作含義如下表所示:
標(biāo) 志
名 稱
IgnoreCase
使模式匹配不區(qū)分大小寫。默認(rèn)的選項(xiàng)是匹配區(qū)分大小寫
RightToLeft
從右到左搜索輸入字符串。默認(rèn)是從左到右以符合英語等的閱讀習(xí)慣,但不符合阿拉伯語或希伯來語的閱讀習(xí)慣
None
不設(shè)置標(biāo)志。這是默認(rèn)選項(xiàng)
Multiline
指定^和$可以匹配行首和行尾,以及字符串的開始和結(jié)尾。這意味著可以匹配每個用換行符分隔的行。但是,字符“.”仍然不匹配換行符
SingleLine
規(guī)定特殊字符“.” 匹配任意的字符,包括換行符。默認(rèn)情況下,特殊字符“.”不匹配換行符。通常與MultiLine選項(xiàng)一起使用
ECMAScript
ECMA(European Coputer Manufacturer’s Association,歐洲計算機(jī)生產(chǎn)商協(xié)會)已經(jīng)定義了正則表達(dá)式應(yīng)該如何實(shí)現(xiàn),而且已經(jīng)在ECMAScript規(guī)范中實(shí)現(xiàn),這是一個基于標(biāo)準(zhǔn)的JavaScript。這個選項(xiàng)只能與IgnoreCase和MultiLine標(biāo)志一起使用。與其它任何標(biāo)志一起使用,ECMAScript都將產(chǎn)生異常
IgnorePatternWhitespace
此選項(xiàng)從使用的正則表達(dá)式模式中刪除所有非轉(zhuǎn)義空白字符。它使表達(dá)式能跨越多行文本,但必須確保對模式中所有的空白進(jìn)行轉(zhuǎn)義。如果設(shè)置了此選項(xiàng),還可以使用“#”字符來注釋下則表達(dá)式
Complied
它把正則表達(dá)式編譯為更接近機(jī)器代碼的代碼。這樣速度快,但不允許對它進(jìn)行任何修改