作者:馬健
主頁:http://stronghorse.yeah.net
目錄
一、目錄表(TOC)與分卷(Volume)
二、固實(solid)壓縮方式
三、安全性
四、開放性
五、結(jié)論
聲明:本文并非學(xué)術(shù)論文,所述內(nèi)容僅為我個人的看法和體會,不具任何權(quán)威性,僅供有興趣的人參考,但是如果您不具有足夠的鑒別能力,建議勿看,以免誤導(dǎo)。
拋開壓縮算法不談,我認(rèn)為zip、rar在文件格式上最大的差異就在目錄表(Table of Contents,TOC):zip有TOC,而rar沒有。
TOC這個詞其實是從出版界借用過來的,指的就是每一本書正文前面的“目錄”,它的作用地球人都知道:如果想快速找到書中某一內(nèi)容,可以先查TOC,然后按照TOC指明的頁碼直接翻即可。
在紙質(zhì)書里TOC是印刷出來的一張表,而在電子文件里則是由結(jié)構(gòu)化數(shù)據(jù)構(gòu)成的一張表,它的目的同樣是為了快速定位:如果想找文件中的某一內(nèi)容,可以先查TOC,知道感興趣的內(nèi)容在文件的什么位置,直接跳過去就行了。最常見的運用就是avi、rm等多媒體文件:播放的時候經(jīng)常有人在播放條上點來點去跳著看(即“隨機(jī)訪問”),如果沒有TOC,在長達(dá)幾百兆的文件里來回定位會慢死。
具體到zip文件里,TOC是放在文件尾部的一張表,里面列出了zip包中每一個文件的屬性(文件名、長度等)和在zip包中的存放位置。如果需要隨機(jī)訪問zip包中的某一個文件,只需在TOC里找到這個文件的存放位置,直接跳過去即可。
而RAR文件里則沒有TOC,在文件頭之后所有文件按順序連續(xù)存放。
這種差異造成的結(jié)果就是:隨機(jī)訪問時zip比rar快,而順序訪問時rar比zip快。
所謂隨機(jī)訪問,就是前面說過的隨機(jī)訪問壓縮包中某個指定的文件。舉一個簡單的例子:一本反編譯或下載到的網(wǎng)頁電子書,有大量HTML、圖像、css、js,然后打成壓縮包。現(xiàn)在要求在不解包的情況下訪問其中的頁面:可以想象,打開每個HTML頁面的時候,它所附帶的圖像、css、js等文件可能隨機(jī)分布在整個壓縮包里,如果沒有TOC,查找每個文件的時候都要從頭開始找,將會有多慢。 所以各位可以理解為什么jar包就是標(biāo)準(zhǔn)zip包,而我也只用zip格式保存反編譯出來的電子書、漫畫、PDG書等一切可能需要隨機(jī)訪問的東西。
所謂順序訪問,就是將整個壓縮包從頭解到尾。在這方面RAR具有天然的優(yōu)勢。而且為了節(jié)省WinRAR列文件的時間,對于單個RAR我一般都直接通過右鍵菜單解壓縮,很少雙擊壓縮包打開再解壓。解多個RAR時當(dāng)然都用BatchUnRar。
由于rar的原作者已經(jīng)去世,造成這種差異的確切原因我相信已不可考,但我個人猜測可能與DOS時代的備份軟件之爭有關(guān):在DOS時代,電腦硬盤不像現(xiàn)在這樣奢侈,20MB就算很大了。這樣的容量用兩盒軟盤 即可備份,備份成本相對數(shù)據(jù)本身的價值來說非常低廉。因此在DOS時代,很多公司和機(jī)構(gòu)都制定有定期硬盤備份政策,以免因為人為或非人為的因素 (早期硬盤可沒有如今可靠)而造成不可挽回的數(shù)據(jù)損失。在備份軟件方面,雖然微軟已經(jīng)隨DOS提供了Backup/Restore工具,但是他們基本不具備數(shù)據(jù)壓縮能力,因此在壓縮軟件中提供備份功能,就成為DOS時代的一個時尚。由于DOS時代的備份介質(zhì)多為軟盤,因此壓縮 軟件的備份功能其實就轉(zhuǎn)化成如今很常見的一個功能:分卷壓縮功能,即按照軟盤容量進(jìn)行分卷壓縮,然后將分卷壓縮文件備份(Backup)到軟盤,需要的時候再解壓,或恢復(fù)(Restore)到硬盤。
DOS時代最有名的zip工具是pkzip,出現(xiàn)得比DOS版的RAR早。在分卷壓縮時,pkzip按照zip文件規(guī)范,將TOC存放在最后,即存儲在最后一卷,由此帶來如下問題:
1、恢復(fù)時,每解壓一張盤,都要先將最后一張盤插進(jìn)去一次,讀一次TOC。
2、只要最后一張盤上的TOC壞了,就算其它盤都是好的,也不能正常解壓。
這兩個缺點,尤其是第一個缺點實在是太臭名昭著了,因此當(dāng)時出現(xiàn)了非常強烈的改革呼聲。在這個關(guān)鍵時刻,DOS版的RAR出現(xiàn)了:不僅壓縮率比pkzip高(這點在DOS時代非常重要,畢竟軟盤又貴容量又?。矣捎谖×水?dāng)時對zip格式的批評,取消了TOC,因此:
1、在恢復(fù)分卷壓縮的備份文件時,不需要頻繁插入帶有TOC的分卷,按順序換盤即可。
2、即使某個分卷損壞,也可以跳過,從完好的分卷再開始解壓。
由于這些原因(當(dāng)然還有其它原因),RAR推出后迅速取得了成功,pkzip在DOS時代就開始流失用戶,到Windows時代基本消聲匿跡。在Windows時代推出的Winzip,則徹底放棄了分卷壓縮功能(zip格式永遠(yuǎn)的痛?)。 而從我看到的源自WinRAR的UnRAR源代碼來看,現(xiàn)在WinRAR的解壓思路明顯還是把文件按順序從頭解到尾,看來當(dāng)年備份/恢復(fù)工具之爭的影響,還真是深遠(yuǎn)。
在壓縮算法方面,我覺得rar格式最特色的是固實(solid)壓縮方式。WinRAR v3.42的幫助文件中對固實壓縮的說明如下:
固實壓縮文件是 RAR 的一種特殊壓縮方式存儲的壓縮文件,它把壓縮文件中的全部文件都當(dāng)成一個連續(xù)數(shù)據(jù)流來看待。
這段說明其實揭示了固實壓縮格式能夠提高壓縮比的奧秘:數(shù)據(jù)壓縮的基礎(chǔ)是“重復(fù)”,例如aaaabbb這個字符串,里面就有重復(fù),如果表示為a4b3,看起來是不是變短了?這就是“數(shù)據(jù)壓縮”?!爸貜?fù)”是一個具有相對意義的概念,在某一范圍內(nèi)看起來沒有重復(fù),或重復(fù)不多的數(shù)據(jù),把范圍擴(kuò)大,說不定就能找到更多重復(fù)的數(shù)據(jù)了,這就是固實壓縮的奧秘。
舉一個簡單的例子:用zip和普通rar壓縮一堆jpg文件,很難壓下去,但是用固實壓縮方式的rar就可以,其原因就在于:jpg文件本身已經(jīng)是壓縮格式了,單個jpg文件里很難再 找到可利用的重復(fù)數(shù)據(jù),因此不論是用zip還是普通的rar都很難再壓縮,因為他們都將需要壓縮的文件分隔開來一個一個處理。但是對于固實rar來說,是將 所有需要壓縮的jpg文件當(dāng)作一個整體來壓縮,這些jpg之間就存在重復(fù)的數(shù)據(jù),如他們都有相同的文件頭(其中包括各種數(shù)據(jù)表)等,這就出現(xiàn)了可壓縮的空間。從我看到的資料來看,F(xiàn)lash文件也采用了類似的技術(shù)對jpg進(jìn)行壓縮:如果在Flash文件中使用了多個jpg文件,它們可以共用一個文件頭。
當(dāng)然天下不會有白吃的午餐,固實壓縮方式在提高壓縮比的同時,也有一些限制,在WinRAR v3.42幫助文件中的說法是:
固實壓縮可增加壓縮性能,特別是在添加大量的小文件的時候,但它也有一些重要的不利因素:
固實壓縮的適用場合為:
與前面說的“隨機(jī)訪問”對應(yīng),固實壓縮的RAR文件可能是世界上最不適合隨機(jī)訪問的:如果需要訪問固實RAR包中的某個文件,就要從文件頭開始解壓,一直解到這個文件。
這里的安全性包含幾個方面的含義:文件系統(tǒng)安全性、密碼保護(hù)安全性和文件數(shù)據(jù)安全性。
由于制訂zip格式規(guī)范的時候操作系統(tǒng)本身的文件安全性還沒有引起足夠的重視,因此zip格式只記錄最基本的文件屬性,包括只讀屬性等,沒有其它附加的安全屬性。
rar格式剛推出的時候,文件系統(tǒng)的安全性只能參照DOS,和zip差不多。但是rar畢竟是一種封閉的格式,想怎么改作者一個人說了就算,因此當(dāng)Windows中出現(xiàn)NTFS,并且引入擴(kuò)展的文件系統(tǒng)安全屬性時,rar也積極跟進(jìn),所以現(xiàn)在應(yīng)該說rar格式在這方面比zip強 。
在zip和rar格式中均提供了密碼保護(hù)功能,但是密碼保護(hù)的安全強度不同。
zip由于格式開放、代碼開源,因此zip密碼破解軟件出現(xiàn)得比較早,也比較多。初期以暴力破解為主,威脅不大,真正對zip密碼安全的致命一擊是known plain text(已知明文)攻擊法:如果知道加密zip文件中某段內(nèi)容(密文,ciphertext)解密后的真正內(nèi)容(明文,plain text),就可以反推出zip加密口令。在這種攻擊方法的威脅,及某些國家的法律對密碼技術(shù)的限制下, 著名開源組織zlib宣布永久放棄對加密zip的支持,詳見zlib網(wǎng)站上的相關(guān)說明(不過在zlib發(fā)行的源代碼里仔細(xì)找找,還是能找到原來的加/解密相關(guān)代碼)。
記得rar剛推出的時候也和zip一樣,雖然不能列出加密文件中的文件內(nèi)容,但可以列出加密文件中的文件名。后來大概也是被known plain text攻擊法嚇到了,增加了一個“加密文件名”選項,干脆連加密rar文件里有哪些文件都看不見,讓攻擊者想猜明文都無從猜起。
rar格式比zip晚推出,在安全方面吸取了足夠的教訓(xùn),因此采用的是美國國家標(biāo)準(zhǔn)與技術(shù)局(National Institute of Standard and Technology, NIST)推薦的、目前公認(rèn)安全程度比較高的AES對稱加密算法 ,密鑰長度128位。在ASE被攻破以前(NIST認(rèn)為30年內(nèi)無法攻破),大家都只能在暴力法上兜圈子,所以密碼安全性應(yīng)該說比zip高。對此WinRAR 3.42的幫助文件是這樣描述的:
ZIP 格式使用私有加密算法。 RAR 壓縮文件使用更強大的 AES-128 標(biāo)準(zhǔn)加密。如果你需要加密重要的信息,選擇 RAR 壓縮文件格式會比較好一些。為了確實的安全性,密碼長度請最少要 8 個字符。不要使用任何語言的單詞作為密碼,最好是任意的隨機(jī)組合字符和數(shù)字,并且要注意密碼的大小寫。請記住,如果你遺失你的密碼,你將無法取出加密的文件,就算是 WinRAR 的作者本身也無法解壓加密過的文件。
在數(shù)據(jù)安全性方面,RAR格式本身支持一種特殊的附加信息類型,叫做“恢復(fù)記錄”。如果RAR文件有恢復(fù)記錄,在介質(zhì)物理損壞或其它原因造成數(shù)據(jù)丟失時,WinRAR可以按照“恢復(fù)記錄”嘗試對數(shù)據(jù)進(jìn)行修復(fù)。而zip格式無恢復(fù)記錄,因此在數(shù)據(jù)安全性方面應(yīng)該說比RAR弱。
雖然RAR文件本身支持恢復(fù)記錄,但是在WinRAR里此選項缺省是關(guān)閉的,而打開后會導(dǎo)致壓縮出來的RAR文件體積增加(增加的百分比與設(shè)置有關(guān)),可能會令某些人感到不習(xí)慣(我就親眼見到有人在論壇上抱怨為什么壓出來的RAR文件會如此龐大),所以這個功能基本上形同虛設(shè)。
開放性的對比很明顯:zip格式不僅文件格式完全公開,而且有專門的開源組織提供操作源代碼,跨平臺使用也沒有多大限制;rar格式完全保密,作者只提供解壓所需源代碼,不提供壓縮所需源代碼 ,跨平臺使用有點麻煩。
zip開源組織中,最出名的是zlib和InfoZip,二者各有側(cè)重:zlib偏重對內(nèi)存緩沖區(qū)的壓縮,因此被png等開源組織用做內(nèi)部壓縮算法,連java的jar程序內(nèi)核都來自zlib,打出來的jar包自然也是一個標(biāo)準(zhǔn)的zip文件;InfoZip偏重對文件的操作 (包括口令保護(hù)),應(yīng)用似乎不如zlib廣泛,但我個人覺得其實它還是滿好用的,前提是需要對它的源代碼進(jìn)行一些必要的修改。
在png組織的網(wǎng)頁中有說到png格式的來歷,我覺得也很有意思:做png的一班人,其實原來都是做gif格式的,但是由于Unisys公司開始對gif格式的核心——LZW壓縮算法征收專利費,這幫人怒了,干脆提出png格式:大結(jié)構(gòu)方面還是采用分段結(jié)構(gòu),但是核心壓縮算法采用開源的zlib,壓縮 效果在多數(shù)情況下比gif的LZW更強。由于沒有版權(quán)限制,在靜態(tài)圖形領(lǐng)域png得到廣泛應(yīng)用,如果不是及時提出動畫支持并因此在web上大行其道,我估計gif早就死掉了。
RAR的解壓源代碼在其官方網(wǎng)站www.rarlab.com上提供,通常比WinRAR的正式版本晚一點,不過據(jù)說是直接從WinRAR的源代碼中摳出來的,所以兼容性應(yīng)該沒有什么問題。
以下觀點純屬個人觀點,僅供參考,不具有如何指導(dǎo)意義: