国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
linux 文本編輯命令grep sed awk(轉(zhuǎn)) - linux開發(fā) - gliet...
linux 文本編輯命令grep sed awk(轉(zhuǎn))

grep

grep (global search regular expression(RE) and print out the line,全面搜索正則表達(dá)式并把行打印出來)是一種強(qiáng)大的文本搜索工具,它能使用正則表達(dá)式搜索文本,并把匹配的行打印出來。Unix的grep家族包括grep、egrep和fgrep。egrep和fgrep的命令只跟grep有很小不同。egrep是grep的擴(kuò)展,支持更多的re元字符, fgrep就是fixed grep或fast grep,它們把所有的字母都看作單詞,也就是說,正則表達(dá)式中的元字符表示回其自身的字面意義,不再特殊。linux使用GNU版本的grep。它功能更強(qiáng),可以通過-G、-E、-F命令行選項(xiàng)來使用egrep和fgrep的功能。
grep的工作方式是這樣的:它在一個(gè)或多個(gè)文件中搜索字符串模板。如果模板包括空格,則必須被引用,模板后的所有字符串被看作文件名。搜索的結(jié)果被送到屏幕,不影響原文件內(nèi)容。
grep可用于shell腳本,因?yàn)間rep通過返回一個(gè)狀態(tài)值來說明搜索的狀態(tài),如果模板搜索成功,則返回0,如果搜索不成功,則返回1,如果搜索的文件不存在,則返回2。我們利用這些返回值就可進(jìn)行一些自動化的文本處理工作。
1. grep正則表達(dá)式元字符集(基本集)

^ 錨定行的開始 如:'^grep'匹配所有以grep開頭的行。
$ 錨定行的結(jié)束 如:'grep$'匹配所有以grep結(jié)尾的行。
. 匹配一個(gè)非換行符的字符 如:'gr.p'匹配gr后接一個(gè)任意字符,然后是p。
* 匹配零個(gè)或多個(gè)先前字符 如:'*grep'匹配所有一個(gè)或多個(gè)空格后緊跟grep的行。 .*一起用代表任意字符。
[] 匹配一個(gè)指定范圍內(nèi)的字符,如'[Gg]rep'匹配Grep和grep。
[^] 匹配一個(gè)不在指定范圍內(nèi)的字符,如:'[^A-FH-Z]rep'匹配不包含A-R和T-Z的一個(gè)字母開頭,緊跟rep的行。
\(..\) 標(biāo)記匹配字符,如'\(love\)',love被標(biāo)記為1。
\< 錨定單詞的開始,如:'\<grep'匹配包含以grep開頭的單詞的行。
\> 錨定單詞的結(jié)束,如'grep\>'匹配包含以grep結(jié)尾的單詞的行。
x\{m\} 重復(fù)字符x,m次,如:'0\{5\}'匹配包含5個(gè)o的行。
x\{m,\} 重復(fù)字符x,至少m次,如:'o\{5,\}'匹配至少有5個(gè)o的行。
x\{m,n\} 重復(fù)字符x,至少m次,不多于n次,如:'o\{5,10\}'匹配5--10個(gè)o的行。
\w 匹配文字和數(shù)字字符,也就是[A-Za-z0-9],如:'G\w*p'匹配以G后跟零個(gè)或多個(gè)文字或數(shù)字字符,然后是p。
\W \w的反置形式,匹配一個(gè)或多個(gè)非單詞字符,如點(diǎn)號句號等。
\b 單詞鎖定符,如: '\bgrepb\'只匹配grep。
2. 用于egrep和 grep -E的元字符擴(kuò)展集
+ 匹配一個(gè)或多個(gè)先前的字符。如:'[a-z]+able',匹配一個(gè)或多個(gè)小寫字母后跟able的串,如loveable,enable,disable等。
匹配零個(gè)或多個(gè)先前的字符。如:'gr?p'匹配gr后跟一個(gè)或沒有字符,然后是p的行。
a|b|c 匹配a或b或c。如:grep|sed匹配grep或sed
() 分組符號,如:love(able|rs)ov+匹配loveable或lovers,匹配一個(gè)或多個(gè)ov。
x{m},x{m,},x{m,n} 作用同x\{m\},x\{m,\},x\{m,n\}
4. POSIX字符類
為了在不同國家的字符編碼中保持一至,POSIX(The Portable Operating System Interface)增加了特殊的字符類,如[:alnum:]是A-Za-z0-9的另一個(gè)寫法。要把它們放到[]號內(nèi)才能成為正則表達(dá)式,如[A- Za-z0-9]或[[:alnum:]]。在linux下的grep除fgrep外,都支持POSIX的字符類。
[:alnum:] 文字?jǐn)?shù)字字符
[:alpha:]文字字符
[:digit:] 數(shù)字字符
[:graph:] 非空字符(非空格、控制字符)
[:lower:] 小寫字符
[:cntrl:] 控制字符
[:print:] 非空字符(包括空格)
[:punct:] 標(biāo)點(diǎn)符號
[:space:] 所有空白字符(新行,空格,制表符)
[:upper:] 大寫字符
[:xdigit:] 十六進(jìn)制數(shù)字(0-9,a-f,A-F)
4. Grep命令選項(xiàng)
-? 同時(shí)顯示匹配行上下的?行,如:grep -2 pattern filename同時(shí)顯示匹配行的上下2行。
-b,--byte-offset 打印匹配行前面打印該行所在的塊號碼。
-c,--count 只打印匹配的行數(shù),不顯示匹配的內(nèi)容。
-f File,--file=File 從文件中提取模板??瘴募邪?個(gè)模板,所以什么都不匹配。
-h,--no-filename 當(dāng)搜索多個(gè)文件時(shí),不顯示匹配文件名前綴。
-i,--ignore-case 忽略大小寫差別。
-q,--quiet 取消顯示,只返回退出狀態(tài)。0則表示找到了匹配的行。
-l,--files-with-matches 打印匹配模板的文件清單。
-L,--files-without-match 打印不匹配模板的文件清單。
-n,--line-number 在匹配的行前面打印行號。
-s,--silent 不顯示關(guān)于不存在或者無法讀取文件的錯(cuò)誤信息。
-v,--revert-match 反檢索,只顯示不匹配的行。
-w,--word-regexp 如果被\<和\>引用,就把表達(dá)式做為一個(gè)單詞搜索。
-V,--version 顯示軟件版本信息。
5. 實(shí)例
要用好grep這個(gè)工具,其實(shí)就是要寫好正則表達(dá)式,所以這里不對grep的所有功能進(jìn)行實(shí)例講解,只列幾個(gè)例子,講解一個(gè)正則表達(dá)式的寫法。
$ ls -l | grep '^a'
通過管道過濾ls -l輸出的內(nèi)容,只顯示以a開頭的行。
$ grep 'test' d*
顯示所有以d開頭的文件中包含test的行。
$ grep 'test' aa bb cc
顯示在aa,bb,cc文件中匹配test的行。
$ grep '[a-z]\{5\}' aa
顯示所有包含每個(gè)字符串至少有5個(gè)連續(xù)小寫字符的字符串的行。
$ grep 'w\(es\)t.*\1' aa
如果west被匹配,則es就被存儲到內(nèi)存中,并標(biāo)記為1,然后搜索任意個(gè)字符(.*),這些字符后面緊跟著另外一個(gè)es(\1),找到就顯示該行。如果用egrep或grep -E,就不用"\"號進(jìn)行轉(zhuǎn)義,直接寫成'w(es)t.*\1'就可以了。

sed 是一個(gè)精簡的、非交互式的編輯器。它能執(zhí)行與編輯vi和emacs相同的編輯任務(wù)。sed編輯器不提供交互使用方式:只能在命令行輸入編輯命令、指定文件名,然后在屏幕上察看輸出。sed編輯器沒有破壞性。它不會修改文件,除非用shell重定向來保存輸出結(jié)果。缺省情況下,所以的輸出都被打印到屏幕上。
sed 編輯器在shell腳本中很有用,因?yàn)樵趕hell腳本中使用像vi或emacs這類交互式編輯器,要求腳本用戶精通該編輯器,而且還會導(dǎo)致用戶對打開的文件做出不需要的修改。如果需要執(zhí)行多項(xiàng)編輯任務(wù),或是不想為shell命令行上的sed命令加引號,也可以把sed命令寫在一個(gè)叫做sed腳本的文件里。記住,在命令行輸入命令時(shí),shell會設(shè)法轉(zhuǎn)換命令中所有的元字符或空白。sed命令中凡是可能被shell解釋的字符都必須加引號進(jìn)行保護(hù)。
sed 是一種在線編輯器,它一次處理一行內(nèi)容。處理時(shí),把當(dāng)前處理的行存儲在臨時(shí)緩沖區(qū)中,稱為“模式空間”(pattern space),接著用sed命令處理緩沖區(qū)中的內(nèi)容,處理完成后,把緩沖區(qū)的內(nèi)容送往屏幕。接著處理下一行,這樣不斷重復(fù),直到文件末尾。文件內(nèi)容并沒有改變,除非你使用重定向存儲輸出。Sed主要用來自動編輯一個(gè)或多個(gè)文件;簡化對文件的反復(fù)操作;編寫轉(zhuǎn)換程序等。以下介紹的是Gnu版本的Sed 3.02。
1. 定址功能
可以通過定址來定位你所希望編輯的行,該地址用數(shù)字構(gòu)成,用逗號分隔的兩個(gè)行數(shù)表示以這兩行為起止的行的范圍(包括行數(shù)表示的那兩行)。如1,3表示1,2,3行,美元符號($)表示最后一行。范圍可以通過數(shù)據(jù),正則表達(dá)式或者二者結(jié)合的方式確定 。
2.sed命令調(diào)用格式
調(diào)用sed命令有兩種形式:
   * sed [options] 'command' file(s)
   * sed [options] -f scrīptfile file(s)
a\ 在當(dāng)前行后面加入一行文本。
b lable 分支到腳本中帶有標(biāo)記的地方,如果分支不存在則分支到腳本的末尾。
c\ 用新的文本改變本行的文本。
d 從模板塊(Pattern space)位置刪除行。
D 刪除模板塊的第一行。
i\ 在當(dāng)前行上面插入文本。
h 拷貝模板塊的內(nèi)容到內(nèi)存中的緩沖區(qū)。
H 追加模板塊的內(nèi)容到內(nèi)存中的緩沖區(qū)。
g 獲得內(nèi)存緩沖區(qū)的內(nèi)容,并替代當(dāng)前模板塊中的文本。
G 獲得內(nèi)存緩沖區(qū)的內(nèi)容,并追加到當(dāng)前模板塊文本的后面。
l 列表不能打印字符的清單。
n 讀取下一個(gè)輸入行,用下一個(gè)命令處理新的行而不是用第一個(gè)命令。
N 追加下一個(gè)輸入行到模板塊后面并在二者間嵌入一個(gè)新行,改變當(dāng)前行號碼。
p 打印模板塊的行。
P(大寫) 打印模板塊的第一行。
q 退出Sed。
r file 從file中讀行。
t label if分支,從最后一行開始,條件一旦滿足或者T,t命令,將導(dǎo)致分支到帶有標(biāo)號的命令處,或者到腳本的末尾。
T label 錯(cuò)誤分支,從最后一行開始,一旦發(fā)生錯(cuò)誤或者T,t命令,將導(dǎo)致分支到帶有標(biāo)號的命令處,或者到腳本的末尾。
w file 寫并追加模板塊到file末尾。
W file 寫并追加模板塊的第一行到file末尾。
! 表示后面的命令對所有沒有被選定的行發(fā)生作用。
s/re/string 用string替換正則表達(dá)式re。
= 打印當(dāng)前行號碼。
*把注釋擴(kuò)展到下一個(gè)換行符以前。
以下的是替換標(biāo)記
       *     g表示行內(nèi)全面替換。
       *     p表示打印行。
       *     w表示把行寫入一個(gè)文件。
       *     x表示互換模板塊中的文本和緩沖區(qū)中的文本。
       *     y表示把一個(gè)字符翻譯為另外的字符(但是不用于正則表達(dá)式)
3. 選項(xiàng) -e command, --expression=command
允許多臺編輯。
-h, --help 打印幫助,并顯示bug列表的地址。
-n, --quiet, --silent 取消默認(rèn)輸出。
-f, --filer=scrīpt-file 引導(dǎo)sed腳本文件名。
-V, --version 打印版本和版權(quán)信息。
4. 元字符集
^ 錨定行的開始 如:/^sed/匹配所有以sed開頭的行。
$ 錨定行的結(jié)束 如:/sed$/匹配所有以sed結(jié)尾的行。
. 匹配一個(gè)非換行符的字符 如:/s.d/匹配s后接一個(gè)任意字符,然后是d。
* 匹配零或多個(gè)字符 如:/*sed/匹配所有模板是一個(gè)或多個(gè)空格后緊跟sed的行。
[] 匹配一個(gè)指定范圍內(nèi)的字符,如/[Ss]ed/匹配sed和Sed。
[^] 匹配一個(gè)不在指定范圍內(nèi)的字符,如:/[^A-RT-Z]ed/匹配不包含A-R和T-Z的一個(gè)字母開頭,緊跟ed的行。
\(..\) 保存匹配的字符,如s/\(love\)able/\1rs,loveable被替換成lovers。
& 保存搜索字符用來替換其他字符,如s/love/**&**/,love這成**love**。
\< 錨定單詞的開始,如:/\<love/匹配包含以love開頭的單詞的行。
\> 錨定單詞的結(jié)束,如/love\>/匹配包含以love結(jié)尾的單詞的行。 x\{m\} 重復(fù)字符x,m次,如:/0\{5\}/匹配包含5個(gè)o的行。
x\{m,\} 重復(fù)字符x,至少m次,如:/o\{5,\}/匹配至少有5個(gè)o的行。 x\{m,n\} 重復(fù)字符x,至少m次,不多于n次,如:/o\{5,10\}/匹配5--10個(gè)o的行。
5. 實(shí)例
5.1刪除:d命令
       *    $ sed '2d' example-----刪除example文件的第二行。
       *    $ sed '2,$d' example-----刪除example文件的第二行到末尾所有行。
       *    $ sed '$d' example-----刪除example文件的最后一行。
       *    $ sed '/test/'d example-----刪除example文件所有包含test的行。
5.2替換:s命令
       *    $ sed 's/test/mytest/g' example-----在整行范圍內(nèi)把test替換為mytest。如果沒有g(shù)標(biāo)記,則只有每行第一個(gè)匹配的test被替換成mytest。
       *    $ sed -n 's/^test/mytest/p' example-----(-n)選項(xiàng)和p標(biāo)志一起使用表示只打印那些發(fā)生替換的行。也就是說,如果某一行開頭的test被替換成mytest,就打印它。
       *    $ sed 's/^192.168.0.1/&localhost/' example-----&符號表示替換換字符串中被找到的部份。所有以192.168.0.1開頭的行都會被替換成它自已加 localhost,變成192.168.0.1localhost。
       *    $ sed -n 's/\(love\)able/\1rs/p' example-----love被標(biāo)記為1,所有l(wèi)oveable會被替換成lovers,而且替換的行會被打印出來。
       *    $ sed 's#10#100#g' example-----不論什么字符,緊跟著s命令的都被認(rèn)為是新的分隔符,所以,“#”在這里是分隔符,代替了默認(rèn)的“/”分隔符。表示把所有10替換成100。
5.3選定行的范圍:逗號
       *    $ sed -n '/test/,/check/p' example-----所有在模板test和check所確定的范圍內(nèi)的行都被打印。
       *    $ sed -n '5,/^test/p' example-----打印從第五行開始到第一個(gè)包含以test開始的行之間的所有行。
       *    $ sed '/test/,/check/s/$/sed test/' example-----對于模板test和west之間的行,每行的末尾用字符串sed test替換。
5.4多點(diǎn)編輯:e命令
       *    $ sed -e '1,5d' -e 's/test/check/' example-----(-e)選項(xiàng)允許在同一行里執(zhí)行多條命令。如例子所示,第一條命令刪除1至5行,第二條命令用check替換test。命令的執(zhí)行順序?qū)Y(jié)果有影響。如果兩個(gè)命令都是替換命令,那么第一個(gè)替換命令將影響第二個(gè)替換命令的結(jié)果。
       *    $ sed --expression='s/test/check/' --expression='/love/d' example-----一個(gè)比-e更好的命令是--expression。它能給sed表達(dá)式賦值。
5.5從文件讀入:r命令
       *    $ sed '/test/r file' example-----file里的內(nèi)容被讀進(jìn)來,顯示在與test匹配的行后面,如果匹配多行,則file的內(nèi)容將顯示在所有匹配行的下面。
5.6寫入文件:w命令
       *    $ sed -n '/test/w file' example-----在example中所有包含test的行都被寫入file里。
5.7追加命令:a命令
       *    $ sed '/^test/a\\--->this is a example' example<-----'this is a example'被追加到以test開頭的行后面,sed要求命令a后面有一個(gè)反斜杠。
5.8插入:i命令
   $ sed '/test/i\\
   new line
   -------------------------' example
   如果test被匹配,則把反斜杠后面的文本插入到匹配行的前面。
下一個(gè):n命令
       *    $ sed '/test/{ n; s/aa/bb/; }' example-----如果test被匹配,則移動到匹配行的下一行,替換這一行的aa,變?yōu)閎b,并打印該行,然后繼續(xù)。
5.9變形:y命令
       *    $ sed '1,10y/abcde/ABCDE/' example-----把1--10行內(nèi)所有abcde轉(zhuǎn)變?yōu)榇髮?,注意,正則表達(dá)式元字符不能使用這個(gè)命令。
5.10退出:q命令
       *    $ sed '10q' example-----打印完第10行后,退出sed。
5.11保持和獲取:h命令和G命令
       *    $ sed -e '/test/h' -e '$G example-----在sed處理文件的時(shí)候,每一行都被保存在一個(gè)叫模式空間的臨時(shí)緩沖區(qū)中,除非行被刪除或者輸出被取消,否則所有被處理的行都將打印在屏幕上。接著模式空間被清空,并存入新的一行等待處理。在這個(gè)例子里,匹配test的行被找到后,將存入模式空間,h命令將其復(fù)制并存入一個(gè)稱為保持緩存區(qū)的特殊緩沖區(qū)內(nèi)。第二條語句的意思是,當(dāng)?shù)竭_(dá)最后一行后,G命令取出保持緩沖區(qū)的行,然后把它放回模式空間中,且追加到現(xiàn)在已經(jīng)存在于模式空間中的行的末尾。在這個(gè)例子中就是追加到最后一行。簡單來說,任何包含test的行都被復(fù)制并追加到該文件的末尾。
5.12保持和互換:h命令和x命令
       *    $ sed -e '/test/h' -e '/check/x' example -----互換模式空間和保持緩沖區(qū)的內(nèi)容。也就是把包含test與check的行互換。
6. 腳本
Sed腳本是一個(gè)sed的命令清單,啟動Sed時(shí)以-f選項(xiàng)引導(dǎo)腳本文件名。Sed對于腳本中輸入的命令非常挑剔,在命令的末尾不能有任何空白或文本,如果在一行中有多個(gè)命令,要用分號分隔。以#開頭的行為注釋行,且不能跨行。 7. 小技巧
   *    在sed的命令行中引用shell變量時(shí)要使用雙引號,而不是通常所用的單引號。下面是一個(gè)根據(jù)name變量的內(nèi)容來刪除named.conf文件中zone段的腳本:
     name='zone\ "localhost"'
     sed "/$name/,/};/d" named.conf

awk

awk是一種程序語言,對文檔資料的處理具有很強(qiáng)的功能。awk名稱是由它三個(gè)最初設(shè)計(jì)者的姓氏的第一個(gè)字母而命名的: Alfred V. Aho、Peter J. We i n b e rg e r、Brian W. Kernighan。
awk 最初在1 9 7 7年完成。1985年發(fā)表了一個(gè)新版本的awk,它的功能比舊版本增強(qiáng)了不少。awk能夠用很短的程序?qū)ξ臋n里的資料做修改、比較、提取、打印等處理。如果使用C 或Pascal等語言編寫程序完成上述的任務(wù)會十分不方便而且很花費(fèi)時(shí)間,所寫的程序也會很大。
awk不僅僅是一個(gè)編程語言,它還是linux系統(tǒng)管理員和程序員的一個(gè)不可缺少的工具。
awk語言本身十分好學(xué),易于掌握,并且特別的靈活。
gawk是G N U計(jì)劃下所做的awk,gawk最初在1 9 8 6年完成,之后不斷地被改進(jìn)、更新。
gawk 包含awk 的所有功能。
1.gawk的主要功能
gawk 的主要功能是針對文件的每一行( l i n e ),也就是每一條記錄,搜尋指定的格式。當(dāng)某一行符合指定的格式時(shí),gawk 就會在此行執(zhí)行被指定的動作。gawk 依此方式自動處理輸入文件的每一行直到輸入文件檔案結(jié)束。
gawk經(jīng)常用在如下的幾個(gè)方面:
• 根據(jù)要求選擇文件的某幾行,幾列或部分字段以供顯示輸出。
• 分析文檔中的某一個(gè)字出現(xiàn)的頻率、位置等。
• 根據(jù)某一個(gè)文檔的信息準(zhǔn)備格式化輸出。
• 以一個(gè)功能十分強(qiáng)大的方式過濾輸出文檔。
• 根據(jù)文檔中的數(shù)值進(jìn)行計(jì)算。
2.如何執(zhí)行g(shù)awk程序
基本上有兩種方法可以執(zhí)行g(shù)awk程序。
如果gawk 程序很短,則可以將gawk 直接寫在命令行,如下所示:
gawk 'program' input-file1 input-file2 ...
其中program 包括一些pattern和action。
如果gawk 程序較長,較為方便的做法是將gawk 程序存在一個(gè)文件中,
gawk 的格式如下所示:
gawk -f program-file input-file1 input-file2 ...
gawk 程序的文件不止一個(gè)時(shí),執(zhí)行g(shù)awk 的格式如下所示:
gawk -f program-file1 -f program-file2 ... input-file1 input-file2 ...
3.文件、記錄和字段
一般情況下,gawk可以處理文件中的數(shù)值數(shù)據(jù),但也可以處理字符串信息。如果數(shù)據(jù)沒有存儲在文件中,可以通過管道命令和其他的重定向方法給gawk提供輸入。當(dāng)然, gawk只能處理文本文件(A S C I I碼文件)。
電話號碼本就是一個(gè)gawk可以處理的文件的簡單例子。電話號碼本由很多條目組成,每一個(gè)條目都有同樣的格式:姓、名、地址、電話號碼。每一個(gè)條目都是按字母順序排列。
在gawk中,每一個(gè)這樣的條目叫做一個(gè)記錄。它是一個(gè)完整的數(shù)據(jù)的集合。例如,電話號碼本中的Smith John這個(gè)條目,包括他的地址和電話號碼,就是一條記錄。
記錄中的每一項(xiàng)叫做一個(gè)字段。在gawk中,字段是最基本的單位。多個(gè)記錄的集合組成了一個(gè)文件。
大多數(shù)情況下,字段之間由一個(gè)特殊的字符分開,像空格、TAB、分號等。這些字符叫做字段分隔符。請看下面這個(gè)/etc/passwd文件:
tparker;t36s62hs;501;101;TimParker;/home/tparker;/bin/bash
etreijs;2ys639dj3;502;101;EdTreijs;/home/etreijs;/bin/tcsh
ychow;1h27sj;503;101;Yvonne Chow;/home/ychow;/bin/bash
你可以看出/etc/passwd文件使用分號作為字段分隔符。/etc/passwd文件中的每一行都包括七個(gè)字段:用戶名;口令;用戶I D;工作組I D;注釋; h o m e目錄;啟始的外殼。如果你想要查找第六個(gè)字段,只需數(shù)過五個(gè)分號即可。
但考慮到以下電話號碼本的例子,你就會發(fā)現(xiàn)一些問題:
Smith John 13 Wilson St. 555-1283
Smith John 2736 Artside Dr Apt 123 555-2736
Smith John 125 Westmount Cr 555-1726
雖 然我們能夠分辨出每個(gè)記錄包括四個(gè)字段,但g a w k卻無能為力。電話號碼本使用空格作為分隔符,所以gawk認(rèn)為Smith是第一個(gè)字段,John是第二個(gè)字段,13是第三個(gè)字段,依次類推。就gawk 而言,如果用空格作為字段分隔符的話,則第一個(gè)記錄有六個(gè)字段,而第二個(gè)記錄有八個(gè)字段。
所以,我們必須找出一個(gè)更好的字段分隔符。例如,像下面一樣使用斜杠作為字段分隔符:
Smith/John/13 Wilson St./555-1283
Smith/John/2736 Artside Dr/Apt/123/555-2736
Smith/John/125 Westmount Cr/555-1726
如果你沒有指定其他的字符作為字段分隔符,那么gawk將缺省地使用空格或TAB作為字段分隔符。
4.模式和動作
在gawk語言中每一個(gè)命令都由兩部分組成:一個(gè)模式(pattern)和一個(gè)相應(yīng)的動作
(action)。只要模式符合,gawk就會執(zhí)行相應(yīng)的動作。其中模式部分用兩個(gè)斜杠括起來,而動
作部分用一對花括號括起來。例如:
/pattern1/{action1}
/pattern2/{action2}
/pattern3/{action3}
所有的gawk程序都是由這樣的一對對的模式和動作組成的。其中模式或動作都能夠被省
略,但是兩個(gè)不能同時(shí)被省略。如果模式被省略,則對于作為輸入的文件里面的每一行,動作
都會被執(zhí)行。如果動作被省略,則缺省的動作被執(zhí)行,既顯示出所有符合模式的輸入行而不做
任何的改動。
下面是一個(gè)簡單的例子,因?yàn)間awk 程序很短,所以將gawk 程序直接寫在外殼命令行:
gawk '/tparker/' /etc/passwd
此程序在上面提到的/etc/passwd 文件中尋找符合tparker模式的記錄并顯示(此例中沒有動作,所以缺省的動作被執(zhí)行)。
讓我們再看一個(gè)例子:
gawk '/UNIX/{print $2}' file2.data
此命令將逐行查找file2.data文件中包含UNIX的記錄,并打印這些記錄的第二個(gè)字段。
你也可以在一個(gè)命令中使用多個(gè)模式和動作對,例如:
gawk '/scandal/{print $1} /rumor/{print $2}' gossip_file
此命令搜索文件gossip_file中包括scandal的記錄,并打印第一個(gè)字段。然后再從頭搜索
gossip_file中包括rumor的記錄,并打印第二個(gè)字段。
5.比較運(yùn)算和數(shù)值運(yùn)算
gawk有很多比較運(yùn)算符,下面列出重要的幾個(gè):
= = 相等
! = 不相等
> 大于
< 小于
> = 大于等于
< = 小于等于
例如:
gawk '$4 > 100' testfile
將會顯示文件testfile 中那些第四個(gè)字段大于1 0 0的記錄。
下表列出了gawk中基本的數(shù)值運(yùn)算符。
運(yùn)算符說明示例
+ 加法運(yùn)算2+6
- 減法運(yùn)算6-3
* 乘法運(yùn)算2*5
/ 除法運(yùn)算8/4
^ 乘方運(yùn)算3^2 (=9)
% 求余數(shù)9%4 (=1)
例如:
{print $3/2}
顯示第三個(gè)字段被2除的結(jié)果。
在gawk中,運(yùn)算符的優(yōu)先權(quán)和一般的數(shù)學(xué)運(yùn)算的優(yōu)先權(quán)一樣。例如:
{print $1+$2*$3}
顯示第二個(gè)字段和第三個(gè)字段相乘,然后和第一個(gè)字段相加的結(jié)果。
你也可以用括號改變優(yōu)先次序。例如:
{print ($1+$2)*$3}
顯示第一個(gè)字段和第二個(gè)字段相加,然后和第三個(gè)字段相乘的結(jié)果。
6.內(nèi)部函數(shù)
gawk中有各種的內(nèi)部函數(shù),現(xiàn)在介紹如下:
6.1 隨機(jī)數(shù)和數(shù)學(xué)函數(shù)
sqrt(x) 求x 的平方根
sin(x) 求x 的正弦函數(shù)
cos(x) 求x 的余弦函數(shù)
atan2(x,y) 求x / y的余切函數(shù)
log(x) 求x 的自然對數(shù)
exp(x) 求x 的e 次方
int(x) 求x 的整數(shù)部分
rand() 求0 和1之間的隨機(jī)數(shù)
srand(x) 將x 設(shè)置為rand()的種子數(shù)
6.2 字符串的內(nèi)部函數(shù)
• index( in,find) 在字符串in中尋找字符串find 第一次出現(xiàn)的地方,返回值是字符串
find 出現(xiàn)在字符串in 里面的位置。如果在字符串in 里面找不到字符串find,則返回值為0。
例如:
print index("peanut"," a n " )
顯示結(jié)果3。
• length(string) 求出string 有幾個(gè)字符。
例如:
length("abcde")
顯示結(jié)果5。
• match(string,regexp) 在字符串string 中尋找符合regexp的最長、最靠左邊的子字符串。返回值是regexp 在string 的開始位置,即index值。match 函數(shù)將會設(shè)置系統(tǒng)變量
RSTART等于index的值,系統(tǒng)變量RLENGTH 等于符合的字符個(gè)數(shù)。如果不符合,則會
設(shè)置RSTART為0、RLENGTH 為- 1。
• sprintf( format,expression1,. . . ) 和printf 類似,但是sprintf 并不顯示,而是返回字符串。
例如:
sprintf("pi = %.2f (approx.)",2 2 / 7 )
返回的字符串為pi = 3.14 (approx.)
• s u b ( r e g e x p,r e p l a c e m e n t,t a rg e t ) 在字符串t a rget 中尋找符合regexp 的最長、最靠左的
地方,以字串replacement 代替最左邊的r e g e x p。
例如:
str = "water,water,everywhere"
sub( /at/, "ith",str)
結(jié)果字符串str會變成wither,water,everywhere
• gsub(regexp,replacement,target) 與前面的sub類似。在字符串target 中尋找符合regexp的所有地方,以字符串replacement 代替所有的regexp。
例如:
str = "water,water,everywhere"
gsub( /at/, "ith",str)
結(jié)果字符串str會變成wither,wither,everywhere
• substr(string,start,length)返回字符串string 的子字符串,這個(gè)子字符串的長度為length,從第start個(gè)位置開始。
例如:
substr("washington",5,3)
返回值為ing
如果沒有l(wèi)ength,則返回的子字符串是從第start 個(gè)位置開始至結(jié)束。
例如:
substr("washington",5)
返回值為ington。
• tolower(string) 將字符串s t r i n g的大寫字母改為小寫字母。
例如:
tolower("MiXeD cAsE 123")
返回值為mixed case 123。
• toupper(string) 將字符串s t r i n g的小寫字母改為大寫字母。
例如:
toupper("MiXeD cAsE 123")
返回值為MIXED CASE 123。
6.3 輸入輸出的內(nèi)部函數(shù)
• close(filename) 將輸入或輸出的文件filename 關(guān)閉。
• system(command) 此函數(shù)允許用戶執(zhí)行操作系統(tǒng)的指令,執(zhí)行完畢后將回到gawk程序。
例如:
BEGIN {system("ls")}
7.字符串和數(shù)字
字符串就是一連串的字符,它可以被gawk逐字地翻譯。字符串用雙引號括起來。數(shù)字不能用雙引號括起來,并且gawk將它當(dāng)作一個(gè)數(shù)值。例如:
gawk '$1 != "Tim" {print}' testfile
此命令將顯示第一個(gè)字段和Tim不相同的所有記錄。如果命令中Tim兩邊不用雙引號,gawk將不能正確執(zhí)行。
再如:
gawk '$1 == "50" {print}' testfile
此命令將顯示所有第一個(gè)字段和5 0這個(gè)字符串相同的記錄。g a w k不管第一字段中的數(shù)值
的大小,而只是逐字地比較。這時(shí),字符串5 0和數(shù)值5 0并不相等。
8.格式化輸出
我們可以讓動作顯示一些比較復(fù)雜的結(jié)果。例如:
gawk '$1 != "Tim" {print $1,$ 5,$ 6,$2}' testfile
將顯示testfile文件中所有第一個(gè)字段和Ti m不相同的記錄的第一、第五、第六和第二個(gè)字段。
進(jìn)一步,你可以在p r i n t動作中加入字符串,例如:
gawk '$1 != "Tim" {print "The entry for ",$ 1,"is not Tim. ",$2}' testfile
print動作的每一部分用逗號隔開。
借用C語言的格式化輸出指令,可以讓gawk的輸出形式更為多樣。這時(shí),應(yīng)該用printf而不是print。例如:
{printf "%5s likes this language\n",$ 2 }
printf中的%5s 部分告訴gawk如何格式化輸出字符串,也就是輸出5個(gè)字符長。它的值由printf 的最后部分指出,在此是第二個(gè)字段。\n是回車換行符。如果第二個(gè)字段中存儲的是人名,則輸出結(jié)果大致如下:
Tim likes this language
Geoff likes this language
Mike likes this language
Joe likes this language
gawk 語言支持的其他格式控制符號如下:
• c 如果是字符串,則顯示第一個(gè)字符;如果是整數(shù),則將數(shù)字以ASCII 字符的形式顯示。
例如:
printf “% c”,65
結(jié)果將顯示字母A。
• d 顯示十進(jìn)制的整數(shù)。
• i 顯示十進(jìn)制的整數(shù)。
• e 將浮點(diǎn)數(shù)以科學(xué)記數(shù)法的形式顯示。
例如:
print “$ 4 . 3 e”,1950
結(jié)果將顯示1.950e+03。
• f 將數(shù)字以浮點(diǎn)的形式顯示。
• g 將數(shù)字以科學(xué)記數(shù)法的形式或浮點(diǎn)的形式顯示。數(shù)字的絕對值如果大于等于0 . 0 0 0 1則
以浮點(diǎn)的形式顯示,否則以科學(xué)記數(shù)法的形式顯示。
• o 顯示無符號的八進(jìn)制整數(shù)。
• s 顯示一個(gè)字符串。
• x 顯示無符號的十六進(jìn)制整數(shù)。1 0至1 5以a至f表示。
• X 顯示無符號的十六進(jìn)制整數(shù)。1 0至1 5以A至F表示。
• % 它并不是真正的格式控制字符,% %將顯示%。
當(dāng)你使用這些格式控制字符時(shí),你可以在控制字符前給出數(shù)字,以表示你將用的幾位或幾個(gè)字符。例如,6 d表示一個(gè)整數(shù)有6位。再請看下面的例子:
{printf "%5s works for %5s and earns %2d an hour",$1,$2,$3}
將會產(chǎn)生類似如下的輸出:
Joe works for Mike and earns 12 an hour
當(dāng)處理數(shù)據(jù)時(shí),你可以指定數(shù)據(jù)的精確位數(shù)
{printf "%5s earns $%.2f an hour",$ 3,$ 6 }
其輸出將類似于:
Joe earns $12.17 an hour
你也可以使用一些換碼控制符格式化整行的輸出。之所以叫做換碼控制符,是因?yàn)間awk對這些符號有特殊的解釋。下面列出常用的換碼控制符:
\a 警告或響鈴字符。
\b 后退一格。
\f 換頁。
\n 換行。
\r 回車。
\t Ta b。
\v 垂直的t a b。
9.改變字段分隔符
在g a w k中,缺省的字段分隔符一般是空格符或TA B。但你可以在命令行使用- F選項(xiàng)改變字符分隔符,只需在- F后面跟著你想用的分隔符即可。
gawk -F" ;"'/tparker/{print}' /etc/passwd
在此例中,你將字符分隔符設(shè)置成分號。注意: - F必須是大寫的,而且必須在第一個(gè)引號之前。
10.元字符
gawk語言在格式匹配時(shí)有其特殊的規(guī)則。例如, cat能夠和記錄中任何位置有這三個(gè)字符的字段匹配。但有時(shí)你需要一些更為特殊的匹配。如果你想讓cat只和concatenate匹配,則需要在格式兩端加上空格:
/ cat / {print}
再例如,你希望既和cat又和CAT匹配,則可以使用或(|):
/ cat | CAT / {print}
在gawk中,有幾個(gè)字符有特殊意義。下面列出可以用在gawk格式中的這些字符:
• ^ 表示字段的開始。
例如:
$3 ~ /^b/
如果第三個(gè)字段以字符b開始,則匹配。
• $ 表示字段的結(jié)束。
例如:
$3 ~ /b$/
如果第三個(gè)字段以字符b結(jié)束,則匹配。
• . 表示和任何單字符m匹配。
例如:
$3 ~ /i.m/
如果第三個(gè)字段有字符i,則匹配。
• | 表示“或”。
例如:
/ c a t | C AT/
和cat 或C AT字符匹配。
• * 表示字符的零到多次重復(fù)。
例如:
/UNI*X/
和U N X、U N I X、U N I I X、U N I I I X等匹配。
• + 表示字符的一次到多次重復(fù)。
例如:
/UNI+X/
和U N I X、U N I I X等匹配。
• \{a,b\} 表示字符a次到b次之間的重復(fù)。
例如:
/ U N I \ { 1,3 \ } X
和U N I X、U N I I X和U N I I I X匹配。
• ? 表示字符零次和一次的重復(fù)。
例如:
/UNI?X/
和UNX 和U N I X匹配。
• [] 表示字符的范圍。
例如:
/I[BDG]M/
和I B M、I D M和I G M匹配
• [^] 表示不在[ ]中的字符。
例如:
/I[^DE]M/
和所有的以I開始、M結(jié)束的包括三個(gè)字符的字符串匹配,除了IDM和IEM之外。
11.調(diào)用gawk程序
當(dāng)需要很多對模式和動作時(shí),你可以編寫一個(gè)gawk程序(也叫做gawk腳本)。在gawk程序中,你可以省略模式和動作兩邊的引號,因?yàn)樵趃awk程序中,模式和動作從哪開始和從哪結(jié)束時(shí)是很顯然的。
你可以使用如下命令調(diào)用g a w k程序:
gawk -f scrīpt filename
此命令使gawk對文件filename執(zhí)行名為scrīpt的gawk程序。
如果你不希望使用缺省的字段分隔符,你可以在f選項(xiàng)后面跟著F選項(xiàng)指定新的字段分隔符(當(dāng)然你也可以在gawk程序中指定),例如,使用分號作為字段分隔符:
gawk -f scrīpt -F";" filename
如果希望gawk 程序處理多個(gè)文件,則把各個(gè)文件名羅列其后:
gawk -f scrīpt filename1 filename2 filename3 ...
缺省情況下, gawk的輸出將送往屏幕。但你可以使用Linux的重定向命令使gawk的輸出送往一個(gè)文件:
gawk -f scrīpt filename > save_file
12.BEGIN和END
有兩個(gè)特殊的模式在gawk中非常有用。BEGIN模式用來指明gawk開始處理一個(gè)文件之前執(zhí)行一些動作。BEGIN經(jīng)常用來初始化數(shù)值,設(shè)置參數(shù)等。END模式用來在文件處理完成后執(zhí)行一些指令,一般用作總結(jié)或注釋。
BEGIN 和END中所有要執(zhí)行的指令都應(yīng)該用花括號括起來。BEGIN 和END必須使用大寫。
請看下面的例子:
BEGIN { print "Starting the process the file" }
$1 == "UNIX" {print}
$2 > 10 {printf "This line has a value of %d",$ 2 }
END { print "Finished processing the file. Bye!"}
此程序中,先顯示一條信息: Starting the process the file,然后將所有第一個(gè)字段等于
UNIX的整條記錄顯示出來,然后再顯示第二個(gè)字段大于10 的記錄,最后顯示信息: Finished processing the file. Bye!
13.變量
在gawk中,可以用等號( = )給一個(gè)變量賦值:
var1=10
在gawk中,你不必事先聲明變量類型。
請看下面的例子:
$1 == "Plastic" { count = count + 1 }
如果第一個(gè)字段是Plastic,則count的值加1。在此之前,我們應(yīng)當(dāng)給count賦予過初值,一般是在BEGIN部分。
下面是比較完整的例子:
BEGIN { count = 0 }
$5 == "UNIX" { count = count + 1 }
END { printf "%d occurrences of UNIX were found",count }
變量可以和字段和數(shù)值一起使用,所以,下面的表達(dá)式均為合法:
count = count + $6
count = $5 - 8
count = $5 + var1
變量也可以是格式的一部分,例如:
$2 > max_value {print "Max value exceeded by ",$2 - max_value}
$4 - var1 < min_value {print "Illegal value of ",$ 4 }
14.內(nèi)置變量
gawk語言中有幾個(gè)十分有用的內(nèi)置變量,現(xiàn)在列于下面:
NR 已經(jīng)讀取過的記錄數(shù)。
FNR 從當(dāng)前文件中讀出的記錄數(shù)。
FILENAME 輸入文件的名字。
FS 字段分隔符(缺省為空格)。
RS 記錄分隔符(缺省為換行)。
OFMT 數(shù)字的輸出格式(缺省為% g)。
OFS 輸出字段分隔符。
ORS 輸出記錄分隔符。
NF 當(dāng)前記錄中的字段數(shù)。
如果你只處理一個(gè)文件,則NR 和FNR 的值是一樣的。但如果是多個(gè)文件, NR是對所有的文件來說的,而FNR 則只是針對當(dāng)前文件而言。
例如:
NR <= 5 {print "Not enough fields in the record"}
檢查記錄數(shù)是否小于5,如果小于5,則顯示出錯(cuò)信息。
FS十分有用,因?yàn)镕S控制輸入文件的字段分隔符。例如,在BEGIN格式中,使用如下的命令:
F S = " : "
15. 控制結(jié)構(gòu)
15.1 if 表達(dá)式
if 表達(dá)式的語法如下:
if (expression){
c o m m a n d s
}
e l s e {
c o m m a n d s
}
例如:
# a simple if loop
(if ($1 == 0){
print "This cell has a value of zero"
}
else {
printf "The value is %d\n",$ 1
} )
再看下一個(gè)例子:
# a nicely formatted if loop
(if ($1 > $2){
print "The first column is larger"
}
else {
print "The second column is larger"
} )
15.2 while 循環(huán)
while 循環(huán)的語法如下:
while (expression){
c o m m a n d s
}
例如:
# interest calculation computes compound interest
# inputs from a file are the amount,interest_rateand years
{var = 1
while (var <= $3) {
printf(" %f\n",$1*(1+$2)^var)
var++}
}
15.3 for 循環(huán)
for 循環(huán)的語法如下:
for (initialization; expression; increment) {
c o m m a n d
}
例如:
# interest calculation computes compound interest
# inputs from a file are the amount,interest_rateand years
{for (var=1; var <= $3; var++) {
printf(" %f\n",$1*(1+$2)^var)
}
}
5.4 next 和exit
next 指令用來告訴gawk 處理文件中的下一個(gè)記錄, 而不管現(xiàn)在正在做什么。語法如下:
{ command1
c o m m a n d 2
c o m m a n d 3
next
c o m m a n d 4
}
程序只要執(zhí)行到n e x t指令,就跳到下一個(gè)記錄從頭執(zhí)行命令。因此,本例中, c o m m a n d 4指令永遠(yuǎn)不會被執(zhí)行。
程序遇到exit指令后,就轉(zhuǎn)到程序的末尾去執(zhí)行END,如果有END的話。
16.數(shù)組
gawk語言支持?jǐn)?shù)組結(jié)構(gòu)。數(shù)組不必事先初始化。聲明一個(gè)數(shù)組的方法如下:
a r r a y n a m e [ n u m ] = v a l u e
請看下面的例子:
# reverse lines in a file
{line[NR] = $0 } # remember each line
END {var=NR # output lines in reverse order
while (var > 0){
print line[var]
v a r - -
}
}
此段程序讀取一個(gè)文件的每一行,并用相反的順序顯示出來。我們使用NR作為數(shù)組的下標(biāo)來存儲文件的每一條記錄,然后在從最后一條記錄開始,將文件逐條地顯示出來。
17.用戶自定義函數(shù)
復(fù)雜的gawk 程序常常可以使用自己定義的函數(shù)來簡化。調(diào)用用戶自定義函數(shù)與調(diào)用內(nèi)部函數(shù)的方法一樣。函數(shù)的定義可以放在gawk 程序的任何地方。
用戶自定義函數(shù)的格式如下:
function name (parameter-list) {
b o d y - o f - f u n c t i o n
}
name 是所定義的函數(shù)的名稱。一個(gè)正確的函數(shù)名稱可包括一序列的字母、數(shù)字、下標(biāo)線(underscores),但是不可用數(shù)字做開頭。parameter- list 是函數(shù)的全部參數(shù)的列表,各個(gè)參數(shù)之間以逗點(diǎn)隔開。body-of-function 包含gawk 的表達(dá)式,它是函數(shù)定義里最重要的部分,它決定函數(shù)實(shí)際要做的事情。
下面這個(gè)例子,會將每個(gè)記錄的第一個(gè)字段的值的平方與第二個(gè)字段的值的平方加起來。
{print "sum =",S q u a r e S u m ( $ 1,$ 2 ) }
function SquareSum(x,y) {
s u m = x * x + y * y
return sum
}
到此,我們已經(jīng)知道了gawk的基本用法。gawk語言十分易學(xué)好用,例如,你可以用gawk編寫一段小程序來計(jì)算一個(gè)目錄中所有文件的個(gè)數(shù)和容量。如果用其他的語言,如C語言,則會十分的麻煩,相反,gawk只需要幾行就可以完成此工作。
18.幾個(gè)實(shí)例
最后,再舉幾個(gè)gawk的例子:
gawk '{if (NF > max) max = NF}
END {print max}'
此程序會顯示所有輸入行之中字段的最大個(gè)數(shù)。
gawk 'length($0) > 80'
此程序會顯示出超過80 個(gè)字符的每一行。此處只有模式被列出,動作是采用缺省值顯示整個(gè)記錄。
gawk 'NF > 0'
顯示擁有至少一個(gè)字段的所有行。這是一個(gè)簡單的方法,將一個(gè)文件里的所有空白行刪除。
gawk 'BEGIN {for (i = 1; i <= 7; i++)
print int(101 * rand())}'
此程序會顯示出范圍是0 到100 之間的7 個(gè)隨機(jī)數(shù)。
ls -l files | gawk '{x += $4}; END {print "total bytes: " x}'
此程序會顯示出所有指定的文件的總字節(jié)數(shù)。
expand file | gawk '{if (x < length()) x = length()}
END {print "maximum line length is " x}'
此程序會將指定文件里最長一行的長度顯示出來。expand會將tab改成space,所以是用實(shí)際的右邊界來做長度的比較。
gawk 'BEGIN {FS = ":"}
{print $1 | "sort"}' /etc/passwd
此程序會將所有用戶的登錄名稱,依照字母的順序顯示出來。
gawk '{nlines++}
END {print nlines}'
此程序會將一個(gè)文件的總行數(shù)顯示出來。
gawk 'END {print NR}'
此程序也會將一個(gè)文件的總行數(shù)顯示出來,但計(jì)算行數(shù)的工作由gawk來做。
gawk '{print NR,$ 0 } '
此程序顯示出文件的內(nèi)容時(shí),會在每行的最前面顯示出行號,它的函數(shù)與‘cat -n’類似。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
Linux里必須掌握的命令
shell中字符串截取命令:cut,printf,awk,sed
我與阿里云的一千零一夜-012-挑個(gè)趁手兵器(其四)
Linux下文本的文本替換——多文收集備用
玩轉(zhuǎn)Linux - 神級工具 sed & awk
linux三劍客(grep、sed、awk)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服