perl在編輯巨大文件時(shí)的應(yīng)用

日期:[2006-07-26] 人氣:[51] 評論:[0]條字體:[大中小] 得分:[0.00]

在實(shí)際中我們經(jīng)常需要處理一些非常大的文件，這時(shí)會有兩個(gè)問題我們比較關(guān)注：一個(gè)是處理程序的性能，希望越快越好；另一個(gè)就是空間的占用問題，不希望產(chǎn)生中間的文件，尤其是在有些空間非常緊張的磁盤上。

關(guān)于性能，通常用C編寫的程序性能較高，這是顯然的，在此我們暫不討論。實(shí)際上一個(gè)編寫良好的shell腳本往往能用可以接受的性能簡單地完成任務(wù)。對于不太復(fù)雜的處理腳本甚至可以寫在一行上，調(diào)試起來非常方便。相比之下，相應(yīng)的C程序就有點(diǎn)“殺雞用牛刀”的感覺。我并不想挑起另一場Language War，我絕對承認(rèn)：C的執(zhí)行效率更高；這里只是想說明：對于一些簡單的問題，shell的“開發(fā)效率”要更高一些。

另外一個(gè)焦點(diǎn)就是空間占用問題，如果能不產(chǎn)生臨時(shí)或者中間文件的話就比較理想。
大多數(shù)shell工具程序都具有相同的特點(diǎn)，可以從標(biāo)準(zhǔn)輸入讀取輸入，并把結(jié)果寫到標(biāo)準(zhǔn)輸出，這一特點(diǎn)非常好，使我們用管道連接多個(gè)工具完成一個(gè)相對復(fù)雜的任務(wù)成為可能。但這樣做勢必要生成中間文件，例如：
grep pattern file > tmpfile
mv tmpfile file
在小文件時(shí)這樣做沒多大關(guān)系，開銷不會很大。但如果文件非常大的話有時(shí)就難以忍受了。
好在最新版本的GNU sed已經(jīng)支持-i選項(xiàng)，直接編輯原文件（只是在用戶表面看來如此:-(，下面會討論），只要這樣就行了：
sed -i ‘/pattern/!d‘ file
情況似乎很完美了，沒有中間文件，沒有額外的空間開銷，問題解決！但是稍等，真的如此嗎？一個(gè)不可就藥的懷疑論者總會對此疑慮重重。^_^OK，我們來測試一下：

刪除一個(gè)文件的前10行，測試環(huán)境：P4 Xeon X2, 內(nèi)存1G，10000轉(zhuǎn)SCSI磁盤，CentOS 4.2 x86_64。GNU sed 4.1.2， Perl 5.8.5。

CODE:

[Copy to clipboard]

# seq 10000 >file1
# sed -i ‘1,10d‘p file1|lsof -c sed
COMMAND　　PID USER　　FD　　TYPE DEVICE　　　　SIZE　　 NODE NAME
sed　　　　14855 root　　cwd　　 DIR　　253,0　　　　4096 5357570 /home/user1
sed　　　　14855 root　　rtd　　 DIR　　253,0　　　　4096　　　　 2 /
sed　　　　14855 root　　txt　　 REG　　253,0　　 52904 6012986 /bin/sed
sed　　　　14855 root　　mem　　 REG　　253,0 48508544 2559248 /usr/lib/locale/locale-archive
sed　　　　14855 root　　mem　　 REG　　253,0　　 21546 2589098 /usr/lib64/gconv/gconv-modules.cache
sed　　　　14855 root　　mem　　 REG　　253,0　　182160 2589145 /usr/lib64/gconv/GB18030.so
sed　　　　14855 root　　mem　　 REG　　253,0　　105080 3997927 /lib64/ld-2.3.4.so
sed　　　　14855 root　　mem　　 REG　　253,0　　1489097 3997928 /lib64/tls/libc-2.3.4.so
sed　　　　14855 root　　 0u　　CHR　　136,3　　　　　　　　　　 5 /dev/pts/3
sed　　　　14855 root　　 1w　　FIFO　　 0,7　　　　　　　　130511 pipe
sed　　　　14855 root　　 2u　　CHR　　136,3　　　　　　　　　　 5 /dev/pts/3
sed　　　　14855 root　　 3r　　REG　　253,0　　 48894 5367617 /home/user1/file1
sed　　　　14855 root　　 4u　　REG　　253,0　　 28263 5367609 /home/user1/sed0cb2We

先說明一下，這里用lsof工具監(jiān)視sed打開的文件，你也許需要su成為root才行。另外sed處理的文件不能太短，讓lsof可以抓到。
請看最后兩行，倒數(shù)第二行是sed處理的目標(biāo)文件，最后一行是...
哈哈，抓到了！sed偷偷地打開了一個(gè)文件。
讓我們再看清楚一點(diǎn)：

CODE:

[Copy to clipboard]

# seq 1000000 >file1
# sed -i ‘1,10d‘ file1|{ lsof -a +r 1 -c sed -d3,4;}
COMMAND　　PID USER　　FD　　TYPE DEVICE　　 SIZE　　 NODE NAME
sed　　　　16030 root　　 3r　　REG　　253,0 6888894 5367609 /home/user1/file1
sed　　　　16030 root　　 4u　　REG　　253,0　　31778 5367617 /home/user1/sedmXZuni
=======
COMMAND　　PID USER　　FD　　TYPE DEVICE　　 SIZE　　 NODE NAME
sed　　　　16030 root　　 3r　　REG　　253,0 6888894 5367609 /home/user1/file1
sed　　　　16030 root　　 4u　　REG　　253,0 1613492 5367617 /home/user1/sedmXZuni
=======
COMMAND　　PID USER　　FD　　TYPE DEVICE　　 SIZE　　 NODE NAME
sed　　　　16030 root　　 3r　　REG　　253,0 6888894 5367609 /home/user1/file1
sed　　　　16030 root　　 4u　　REG　　253,0 3285078 5367617 /home/user1/sedmXZuni
=======
COMMAND　　PID USER　　FD　　TYPE DEVICE　　 SIZE　　 NODE NAME
sed　　　　16030 root　　 3r　　REG　　253,0 6888894 5367609 /home/user1/file1
sed　　　　16030 root　　 4u　　REG　　253,0 4959317 5367617 /home/user1/sedmXZuni
=======
COMMAND　　PID USER　　FD　　TYPE DEVICE　　 SIZE　　 NODE NAME
sed　　　　16030 root　　 3r　　REG　　253,0 6888894 5367609 /home/user1/file1
sed　　　　16030 root　　 4u　　REG　　253,0 6631246 5367617 /home/user1/sedmXZuni
=======

這次處理的文件加大了，lsof每1秒鐘采樣一次?？梢钥吹脚R時(shí)文件越來越大，最后接近原文件的大小。

如此我們可以推論：sed -i的處理過程是先將輸出寫入一個(gè)臨時(shí)文件，然后自動將臨時(shí)文件改名為原文件，--就像前面我們手工做的那樣。
這樣的話，用sed -i只是方便了一點(diǎn)，并沒有空間占用上的優(yōu)勢。

那么是不是就非用C不可呢？別急，flw在本版曾給出過一個(gè)perl腳本（請參看：如何不需要更多的空間，去掉文件的首位注釋行？），為了和上面的例子對應(yīng)，改寫如下：

CODE:

[Copy to clipboard]

$ cat t.pl
#!/usr/bin/perl
$fn = shift;
open R, "<$fn";
open W, "+<$fn";
while(<R>){
print W if $. > 10
}
truncate( W, tell(W) );

這段代碼用兩個(gè)句柄打開要處理的文件，處理的結(jié)果寫回原文件，最后截?cái)辔募拈L度以適應(yīng)處理后的結(jié)果。很明顯這里沒有用到任何中間文件。
經(jīng)測試，腳本工作得很好，而且性能比sed要高出一個(gè)量級。

CODE:

[Copy to clipboard]

$ seq 100000 >file1
$ time ./t.pl file1

real　　 0m0.075s
user　　 0m0.073s
sys　　　　0m0.002s

$ seq 100000 >file1
$ time sed -i ‘1, 10d‘ file1

real　　 0m0.417s
user　　 0m0.134s
sys　　　　0m0.283s

可以相信，性能的差距主要是臨時(shí)文件的IO造成的，如果去掉-i選項(xiàng)，sed的性能會好很多，與perl在一個(gè)量級上：

CODE:

[Copy to clipboard]

$ time sed ‘1, 10d‘ file1 >/dev/null

real　　 0m0.072s
user　　 0m0.071s
sys　　　　0m0.001s

相應(yīng)的perl代碼的性能也相近：

CODE:

[Copy to clipboard]

$ time perl -ne ‘print if $. > 10‘ file1 >/dev/null

real　　 0m0.071s
user　　 0m0.070s
sys　　　　0m0.001s

由此可見flw的代碼效率相當(dāng)高，額外的磁盤IO很少。

至此我們終于有一種方法解決了大文件的空間占用問題。似乎可以大功告成，收兵回營了。但是再等一下，flw的代碼性能雖好，但還是稍微麻煩了一點(diǎn)。有沒有性能又好編寫又簡單的方法呢？
上面我們已經(jīng)討論過sed的-i選項(xiàng)，我們知道perl也有-i選項(xiàng)，實(shí)際上GNU sed的-i選項(xiàng)應(yīng)該是從perl借鑒過去的。既然sed -i性能很差，perl -i性能究竟如何呢？關(guān)鍵在于，它是否會使用中間文件--因?yàn)槟菚牒芏啻疟PIO。我們來測試看看：

CODE:

[Copy to clipboard]

$seq 100000 >file1
$ time perl -i -ne ‘print if $. > 10‘ file1

real　　 0m0.076s
user　　 0m0.070s
sys　　　　0m0.006s

不錯(cuò)！性能和flw的代碼相差不大。這似乎說明沒有中間文件，我們來驗(yàn)證一下：

CODE:

[Copy to clipboard]

# perl -i -ne ‘print if $. > 10‘ file1|lsof -a -c perl -d0-9
COMMAND　　PID USER　　FD　　TYPE DEVICE　　 SIZE　　 NODE NAME
perl　　 16279 root　　 0u　　CHR　　136,3　　　　　　　　　　5 /dev/pts/3
perl　　 16279 root　　 1w　　FIFO　　 0,7　　　　　　 136352 pipe
perl　　 16279 root　　 2u　　CHR　　136,3　　　　　　　　　　5 /dev/pts/3
perl　　 16279 root　　 3r　　REG　　253,0 6888602 5367617 /home/user1/file1 (deleted)
perl　　 16279 root　　 4w　　REG　　253,0　　225280 5367609 /home/user1/file1

如我們所料：perl打開了file1兩次，沒有中間文件。對比一下flw代碼的情況：

CODE:

[Copy to clipboard]

# ./t.pl file1|lsof -a -c t.pl -d0-9
COMMAND　　PID USER　　FD　　TYPE DEVICE　　 SIZE　　 NODE NAME
t.pl　　 16294 root　　 0u　　CHR　　136,3　　　　　　　　　　5 /dev/pts/3
t.pl　　 16294 root　　 1w　　FIFO　　 0,7　　　　　　 136475 pipe
t.pl　　 16294 root　　 2u　　CHR　　136,3　　　　　　　　　　5 /dev/pts/3
t.pl　　 16294 root　　 3r　　REG　　253,0 6888562 5367609 /home/user1/file1
t.pl　　 16294 root　　 4u　　REG　　253,0 6888562 5367609 /home/user1/file1

讓我們再加大文件試試：

CODE:

[Copy to clipboard]

$ seq 10000000 >file1
$ time ./t.pl file1

real　　 0m7.810s
user　　 0m7.524s
sys　　　　0m0.284s

$ seq 10000000 >file1
$ time perl -i -ne ‘print if $. > 10‘ file1

real　　 0m7.825s
user　　 0m7.189s
sys　　　　0m0.635s

如上，flw的代碼sys時(shí)間較少，反映其IO耗時(shí)較少，但user時(shí)間稍長點(diǎn)，可能是在顯式的while循環(huán)上吃虧的緣故。總的來看兩者差距微小。

至此，我們已經(jīng)得到了perl處理大文件的兩種方法，兩者性能相差無幾，但perl -i更加簡單，可以寫出漂亮的單行腳本--one liner，推薦大家優(yōu)先使用。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

perl在編輯巨大文件時(shí)的應(yīng)用