国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
perl在編輯巨大文件時(shí)的應(yīng)用

perl在編輯巨大文件時(shí)的應(yīng)用

日期:[2006-07-26] 人氣:[51] 評論:[0]條 字體:[ ] 得分:[0.00]

在實(shí)際中我們經(jīng)常需要處理一些非常大的文件,這時(shí)會有兩個(gè)問題我們比較關(guān)注:一個(gè)是處理程序的性能,希望越快越好;另一個(gè)就是空間的占用問題,不希望產(chǎn)生中間的文件,尤其是在有些空間非常緊張的磁盤上。

關(guān)于性能,通常用C編寫的程序性能較高,這是顯然的,在此我們暫不討論。實(shí)際上一個(gè)編寫良好的shell腳本往往能用可以接受的性能簡單地完成任務(wù)。對于不太復(fù)雜的處理腳本甚至可以寫在一行上,調(diào)試起來非常方便。相比之下,相應(yīng)的C程序就有點(diǎn)“殺雞用牛刀”的感覺。我并不想挑起另一場Language War,我絕對承認(rèn):C的執(zhí)行效率更高;這里只是想說明:對于一些簡單的問題,shell的“開發(fā)效率”要更高一些。

另外一個(gè)焦點(diǎn)就是空間占用問題,如果能不產(chǎn)生臨時(shí)或者中間文件的話就比較理想。
大多數(shù)shell工具程序都具有相同的特點(diǎn),可以從標(biāo)準(zhǔn)輸入讀取輸入,并把結(jié)果寫到標(biāo)準(zhǔn)輸出,這一特點(diǎn)非常好,使我們用管道連接多個(gè)工具完成一個(gè)相對復(fù)雜的任務(wù)成為可能。但這樣做勢必要生成中間文件,例如:
grep pattern file > tmpfile
mv tmpfile file
在小文件時(shí)這樣做沒多大關(guān)系,開銷不會很大。但如果文件非常大的話有時(shí)就難以忍受了。
好在最新版本的GNU sed已經(jīng)支持-i選項(xiàng),直接編輯原文件(只是在用戶表面看來如此:-(,下面會討論),只要這樣就行了:
sed -i ‘/pattern/!d‘ file
情況似乎很完美了,沒有中間文件,沒有額外的空間開銷,問題解決!但是稍等,真的如此嗎?一個(gè)不可就藥的懷疑論者總會對此疑慮重重。^_^OK,我們來測試一下:

刪除一個(gè)文件的前10行,測試環(huán)境:P4 Xeon X2, 內(nèi)存1G,10000轉(zhuǎn)SCSI磁盤,CentOS 4.2 x86_64。GNU sed 4.1.2, Perl 5.8.5。

# seq 10000 >file1
# sed -i ‘1,10d‘p file1|lsof -c sed
COMMAND   PID USER   FD   TYPE DEVICE     SIZE    NODE NAME
sed     14855 root  cwd    DIR  253,0     4096 5357570 /home/user1
sed     14855 root  rtd    DIR  253,0     4096       2 /
sed     14855 root  txt    REG  253,0    52904 6012986 /bin/sed
sed     14855 root  mem    REG  253,0 48508544 2559248 /usr/lib/locale/locale-archive
sed     14855 root  mem    REG  253,0    21546 2589098 /usr/lib64/gconv/gconv-modules.cache
sed     14855 root  mem    REG  253,0   182160 2589145 /usr/lib64/gconv/GB18030.so
sed     14855 root  mem    REG  253,0   105080 3997927 /lib64/ld-2.3.4.so
sed     14855 root  mem    REG  253,0  1489097 3997928 /lib64/tls/libc-2.3.4.so
sed     14855 root    0u   CHR  136,3                5 /dev/pts/3
sed     14855 root    1w  FIFO    0,7           130511 pipe
sed     14855 root    2u   CHR  136,3                5 /dev/pts/3
sed     14855 root    3r   REG  253,0    48894 5367617 /home/user1/file1
sed     14855 root    4u   REG  253,0    28263 5367609 /home/user1/sed0cb2We
先說明一下,這里用lsof工具監(jiān)視sed打開的文件,你也許需要su成為root才行。另外sed處理的文件不能太短,讓lsof可以抓到。
請看最后兩行,倒數(shù)第二行是sed處理的目標(biāo)文件,最后一行是...
哈哈,抓到了!sed偷偷地打開了一個(gè)文件。
讓我們再看清楚一點(diǎn):

# seq 1000000 >file1
# sed -i ‘1,10d‘ file1|{ lsof -a +r 1 -c sed -d3,4;}
COMMAND   PID USER   FD   TYPE DEVICE    SIZE    NODE NAME
sed     16030 root    3r   REG  253,0 6888894 5367609 /home/user1/file1
sed     16030 root    4u   REG  253,0   31778 5367617 /home/user1/sedmXZuni
=======
COMMAND   PID USER   FD   TYPE DEVICE    SIZE    NODE NAME
sed     16030 root    3r   REG  253,0 6888894 5367609 /home/user1/file1
sed     16030 root    4u   REG  253,0 1613492 5367617 /home/user1/sedmXZuni
=======
COMMAND   PID USER   FD   TYPE DEVICE    SIZE    NODE NAME
sed     16030 root    3r   REG  253,0 6888894 5367609 /home/user1/file1
sed     16030 root    4u   REG  253,0 3285078 5367617 /home/user1/sedmXZuni
=======
COMMAND   PID USER   FD   TYPE DEVICE    SIZE    NODE NAME
sed     16030 root    3r   REG  253,0 6888894 5367609 /home/user1/file1
sed     16030 root    4u   REG  253,0 4959317 5367617 /home/user1/sedmXZuni
=======
COMMAND   PID USER   FD   TYPE DEVICE    SIZE    NODE NAME
sed     16030 root    3r   REG  253,0 6888894 5367609 /home/user1/file1
sed     16030 root    4u   REG  253,0 6631246 5367617 /home/user1/sedmXZuni
=======
這次處理的文件加大了,lsof每1秒鐘采樣一次??梢钥吹脚R時(shí)文件越來越大,最后接近原文件的大小。

如此我們可以推論:sed -i的處理過程是先將輸出寫入一個(gè)臨時(shí)文件,然后自動將臨時(shí)文件改名為原文件,--就像前面我們手工做的那樣。
這樣的話,用sed -i只是方便了一點(diǎn),并沒有空間占用上的優(yōu)勢。

那么是不是就非用C不可呢?別急,flw在本版曾給出過一個(gè)perl腳本(請參看:如何不需要更多的空間,去掉文件的首位注釋行?),為了和上面的 例子對應(yīng),改寫如下:

$ cat t.pl
#!/usr/bin/perl
$fn = shift;
open R, "<$fn";
open W, "+<$fn";
while(<R>){
print W if $. > 10
}
truncate( W, tell(W) );
這段代碼用兩個(gè)句柄打開要處理的文件,處理的結(jié)果寫回原文件,最后截?cái)辔募拈L度以適應(yīng)處理后的結(jié)果。很明顯這里沒有用到任何中間文件。
經(jīng)測試,腳本工作得很好,而且性能比sed要高出一個(gè)量級。

$ seq 100000 >file1
$ time ./t.pl file1

real    0m0.075s
user    0m0.073s
sys     0m0.002s

$ seq 100000 >file1
$ time sed -i ‘1, 10d‘ file1

real    0m0.417s
user    0m0.134s
sys     0m0.283s
可以相信,性能的差距主要是臨時(shí)文件的IO造成的,如果去掉-i選項(xiàng),sed的性能會好很多,與perl在一個(gè)量級上:

$ time sed ‘1, 10d‘ file1 >/dev/null

real    0m0.072s
user    0m0.071s
sys     0m0.001s
相應(yīng)的perl代碼的性能也相近:

$ time perl -ne ‘print if $. > 10‘ file1 >/dev/null

real    0m0.071s
user    0m0.070s
sys     0m0.001s
由此可見flw的代碼效率相當(dāng)高,額外的磁盤IO很少。


至此我們終于有一種方法解決了大文件的空間占用問題。似乎可以大功告成,收兵回營了。但是再等一下,flw的代碼性能雖好,但還是稍微麻煩了一點(diǎn)。有沒有性能又好編寫又簡單的方法呢?
上面我們已經(jīng)討論過sed的-i選項(xiàng),我們知道perl也有-i選項(xiàng),實(shí)際上GNU sed的-i選項(xiàng)應(yīng)該是從perl借鑒過去的。既然sed -i性能很差,perl -i性能究竟如何呢?關(guān)鍵在于,它是否會使用中間文件--因?yàn)槟菚牒芏啻疟PIO。我們來測試看看:

$seq 100000 >file1
$ time perl -i -ne ‘print if $. > 10‘ file1

real    0m0.076s
user    0m0.070s
sys     0m0.006s
不錯(cuò)!性能和flw的代碼相差不大。這似乎說明沒有中間文件,我們來驗(yàn)證一下:

# perl -i -ne ‘print if $. > 10‘ file1|lsof -a -c perl -d0-9
COMMAND   PID USER   FD   TYPE DEVICE    SIZE    NODE NAME
perl    16279 root    0u   CHR  136,3               5 /dev/pts/3
perl    16279 root    1w  FIFO    0,7          136352 pipe
perl    16279 root    2u   CHR  136,3               5 /dev/pts/3
perl    16279 root    3r   REG  253,0 6888602 5367617 /home/user1/file1 (deleted)
perl    16279 root    4w   REG  253,0  225280 5367609 /home/user1/file1
如我們所料:perl打開了file1兩次,沒有中間文件。對比一下flw代碼的情況:

# ./t.pl file1|lsof -a -c t.pl -d0-9
COMMAND   PID USER   FD   TYPE DEVICE    SIZE    NODE NAME
t.pl    16294 root    0u   CHR  136,3               5 /dev/pts/3
t.pl    16294 root    1w  FIFO    0,7          136475 pipe
t.pl    16294 root    2u   CHR  136,3               5 /dev/pts/3
t.pl    16294 root    3r   REG  253,0 6888562 5367609 /home/user1/file1
t.pl    16294 root    4u   REG  253,0 6888562 5367609 /home/user1/file1
讓我們再加大文件試試:

$ seq 10000000 >file1
$ time ./t.pl file1

real    0m7.810s
user    0m7.524s
sys     0m0.284s

$ seq 10000000 >file1
$ time perl -i -ne ‘print if $. > 10‘ file1

real    0m7.825s
user    0m7.189s
sys     0m0.635s
如上,flw的代碼sys時(shí)間較少,反映其IO耗時(shí)較少,但user時(shí)間稍長點(diǎn),可能是在顯式的while循環(huán)上吃虧的緣故。總的來看兩者差距微小。

至此,我們已經(jīng)得到了perl處理大文件的兩種方法,兩者性能相差無幾,但perl -i更加簡單,可以寫出漂亮的單行腳本--one liner,推薦大家優(yōu)先使用。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
使用sed和awk命令刪除第一列
生成exl文件
五種方法實(shí)現(xiàn)Linux批量重命名文件
高級Unix命令 | 酷殼 - CoolShell.cn
sed?基礎(chǔ),語句格式
25個(gè)好用的Shell腳本常用命令分享
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服