杨幂肚子疼视频,古力娜扎走秀视频

如果你有時(shí)間的話，我建議你先不要看下面的內(nèi)容，自己嘗試通過讀gzip源碼，來了解它的壓縮解壓縮是如何實(shí)現(xiàn)的，這將會是一個(gè)非常有趣的智力游戲，千萬不要錯(cuò)過。當(dāng)一個(gè)又一個(gè)的謎被解開時(shí)，那感覺就像唐伯虎同志所說的，“慷慨然諾杯酒中”。（小唐的詩，除了另一個(gè)倒霉蛋曹雪芹外，好像不太被人提。）

　　 1 gzip所使用壓縮算法的基本原理

　　 gzip 對于要壓縮的文件，首先使用lz77算法進(jìn)行壓縮，對得到的結(jié)果再使用huffman編碼的方法進(jìn)行壓縮。所以我們分別對lz77和huffman編碼的原理進(jìn)行說明。

　　 1.1 ... 1.2 ...

　　 2 gzip壓縮算法實(shí)現(xiàn)方法

　　 2.1 LZ77算法的gzip實(shí)現(xiàn)

　　首先，gzip 從要壓縮的文件中讀入64KB的內(nèi)容到一個(gè)叫window的緩沖區(qū)中。為了簡單起見，我們以32KB以下文件的壓縮為例做說明。對于我們這里使用32KB以下文件，gzip將整個(gè)文件讀入到window緩沖區(qū)中。然后使用一個(gè)叫strstart的變量在window數(shù)組中，從0開始一直向后移動。strstart在每一個(gè)位置上，都在它之前的區(qū)域中，尋找和當(dāng)前strstart開始的串的頭3個(gè)字節(jié)匹配的串，并試圖從這些匹配串中找到最長的匹配串。

　　如果當(dāng)前的strstart開始的串，可以找到最少為3個(gè)字節(jié)的匹配串的話，當(dāng)前的strstart開始的匹配長度那么長的串，將會被一個(gè)<匹配長度,到匹配串開頭的距離>對替換。

　　如果當(dāng)前的strstart開始的串，找不到任何的最少為3個(gè)字節(jié)的匹配串的話，那么當(dāng)前strstart的所在字節(jié)將不作改動。

　　為了區(qū)分是一個(gè)<匹配長度,到匹配串開頭的距離>對，還是一個(gè)沒有被改動的字節(jié)，還需要為每一個(gè)沒有被改動的字節(jié)或者<匹配長度,到匹配串開頭的距離>對，另外再占用一
　　位，來進(jìn)行區(qū)分。這位如果為1，表示是一個(gè)<匹配長度,到匹配串開頭的距離>對，這位如果為0，表示是一個(gè)沒有被改動的字節(jié)。

　　現(xiàn)在來說明一下，為什么最小匹配為3個(gè)字節(jié)。這是由于，gzip 中，<匹配長度,到匹配串開頭的距離>對中，"匹配長度"的范圍為3-258，也就是256種可能值，需要8bit來保存。"到匹配串開頭的距離"的范圍為0-32K，需要15bit來保存。所以一個(gè)<匹配長度,到匹配串開頭的距離>對需要23位，差一位3個(gè)字節(jié)。如果匹配串小于3個(gè)字節(jié)的話，使用<匹配長度,到匹配串開頭的距離>對進(jìn)行替換，不但沒有壓縮，反而還會增大。所以保存<匹配長度,到匹配串開頭的距離>對所需要的位數(shù)，決定了最小匹配長度至少要為3個(gè)字節(jié)。

　　下面我們就來介紹gzip如何實(shí)現(xiàn)尋找當(dāng)前strstart開始的串的最長匹配串。

　　如果每次為當(dāng)前串尋找匹配串時(shí)，都要和之前的每個(gè)串的至少3個(gè)字節(jié)進(jìn)行比較的話，那么比較量將是非常非常大的。為了提高比較速度，gzip使用了哈希表。這是gzip實(shí)現(xiàn)LZ77的關(guān)鍵。這個(gè)哈希表是一個(gè)叫head的數(shù)組（后面我們將看到為什么這個(gè)緩沖區(qū)叫head）。gzip對windows中的每個(gè)串，使用串的頭三個(gè)字節(jié)，也就是strstart,strstart 1,strstart 2，用一個(gè)設(shè)計(jì)好的哈希函數(shù)來進(jìn)行計(jì)算，得到一個(gè)插入位置ins_h。也就是用串的頭三個(gè)字節(jié)來確定一個(gè)插入位置。然后把串的位置，也就是 strstart的值，保存在head數(shù)組的第ins_h項(xiàng)中。我們馬上就可以看到為什么要這樣做。head數(shù)組在沒有插入任何值時(shí)，全部為0。
當(dāng)某處的當(dāng)前串的三個(gè)字節(jié)確定了一個(gè)ins_h，并把當(dāng)時(shí)當(dāng)前串的位置也就是當(dāng)時(shí)的strstart保存在了head[ins_h]中。之后另一處，當(dāng)另一處的當(dāng)前串的頭三個(gè)字節(jié)，再為那三個(gè)字節(jié)時(shí)，再使用那個(gè)哈希函數(shù)來計(jì)算，由于是同樣的三個(gè)字節(jié)，同樣的哈希函數(shù)，得到的ins_h必然和前面得到的ins_h是相同的。于是就會發(fā)現(xiàn)head[ins_h]不為0。這就說明了，有一個(gè)頭三個(gè)字節(jié)和自己相同的串把自己的位置保存在了這里，現(xiàn)在head[ins_h]中保存的值，也就是那個(gè)串的開始位置，我們就可以找到那個(gè)串，那個(gè)串至少前3個(gè)字節(jié)和當(dāng)前串的前3個(gè)字節(jié)相同（稍后我們就可以看到這種說法不準(zhǔn)確，這里是為了說明方便），我們可以找到那個(gè)串，做進(jìn)一步比較，看到底能有多長的匹配。

　　我們現(xiàn)在來說明一下，相同的三個(gè)字節(jié)，通過哈希函數(shù)得到的ins_h必然是相同的。而不同的三個(gè)字節(jié)，通過哈希函數(shù)有沒有可能得到同一個(gè)ins_h，我沒有對這個(gè)哈希函數(shù)做研究，并不清楚，不過一般的哈希函數(shù)都是這樣的，所以極大可能這里的也會是這種情況，即不同的三個(gè)字節(jié)，通過哈希函數(shù)有可能得到同一個(gè)ins_h，不過這并不要緊，我們發(fā)現(xiàn)有可能是匹配串之后，還會進(jìn)行串的比較。

　　一個(gè)文件中，可能有很多個(gè)串的頭三個(gè)字節(jié)都是相同的，也就是說他們計(jì)算得到的ins_h都是相同的，如何能保證找到他們中的每一個(gè)串呢？gzip使用一個(gè)鏈把他們鏈在一起。gzip每次把當(dāng)前串的位置插入head的當(dāng)前串頭三個(gè)字節(jié)算出的ins_h處時(shí)，都會首先把原來的head[ins_h]的值，保存到一個(gè)叫prev的數(shù)組中，保存的位置就在現(xiàn)在的strstart處。這樣當(dāng)以后某處的當(dāng)前串計(jì)算出ins_h，發(fā)現(xiàn)head[ins_h]不空時(shí)，就可以到prev[ head[ins_h] ]中找到更前一個(gè)的頭三個(gè)字節(jié)相同的串的位置。對此我們舉例說明。

　　例，串
　　 0abcdabceabcfabcg
　　 ^^^^^^^^^^^^^^^^^
　　 01234567890123456

　　整個(gè)串被壓縮程序處理之后。

　　由abc算出ins_h。
　　這時(shí)的head[ins_h]中為 13,即"abcg"的開始位置。
　　這時(shí)prev[13]中為 9，即"abcfabcg"的開始位置。
　　這時(shí)prev[9]中為 5，即"abceabcfabcg"的開始位置。
　　這時(shí)prev[5]中為 1，即"abcdabceabcfabcg"的開始位置。
　　這時(shí)prev[1]中為 0。

　　我們看到所有頭三個(gè)字母為abc的串，被鏈在了一起，從head可以一直找下去，直到找到0。

　　現(xiàn)在我們也就知道了，三個(gè)字節(jié)通過哈希函數(shù)計(jì)算得到同一ins_h的所有的串被鏈在了一起，head[ins_h]為鏈頭，prev數(shù)組中放著的更早的串。這也就是head和prev名稱的由
　　來。

　　 gzip尋找匹配串的另外一個(gè)值得注意的實(shí)現(xiàn)是，延遲匹配。會進(jìn)行兩次嘗試。比如當(dāng)前串為str,那么str發(fā)生匹配以后，并不發(fā)生壓縮，還會對str 1串進(jìn)行匹配，然后看哪種
　　匹配效果好。

　　例子 ...
從這個(gè)例子中我們就看到了做另外一次嘗試的原因。如果碰到的一個(gè)匹配就使用了的話，可能錯(cuò)過更長匹配的機(jī)會?，F(xiàn)在做兩次會有所改善。

　　 ...

　　 2.2 問題討論

　　我在這里對gzip壓縮算法做出了一些說明，是希望可以和對gzip或者壓縮解壓縮感興趣的朋友進(jìn)行交流。
　　我對gzip的了解要比這里說的更多一些，也有更多的例子。如果哪位朋友愿意對下面的問題進(jìn)行研究，以及其他壓縮解壓縮的問題進(jìn)行研究，來這里http://jiurl.cosoft.org.cn/forum/ 和我交流的話，我也愿意就我知道的內(nèi)容進(jìn)行更多的說明。

　　下面是幾個(gè)問題

　　這種匹配算法，即用3個(gè)字節(jié)(最小匹配)來計(jì)算一個(gè)整數(shù)，是否比用串比較來得高效，高效到什么程度。

　　哈希函數(shù)的討論。不同的三個(gè)字節(jié)，是否可能得到同一個(gè)ins_h。ins_h和計(jì)算它的三個(gè)字節(jié)的關(guān)系。

　　幾次延遲嘗試比較好？

　　用延遲，兩次嘗試是否對壓縮率的改善是非常有限的？

　　影響lz77壓縮率的因素。

　　壓縮的極限。

　　 2.3 ...

　　 3 gzip源碼分析

　　 main() 中調(diào)用函數(shù) treat_file() 。
　　 treat_file() 中打開文件，調(diào)用函數(shù) zip()。注意這里的 work 的用法，這是一個(gè)函數(shù)指針。
　　 zip() 中輸出gzip文件格式的頭，調(diào)用 bi_init，ct_init，lm_init，
　　其中在lm_init中將 head 初始化清0。初始化strstart為0。從文件中讀入64KB的內(nèi)容到window緩沖區(qū)中。
　　由于計(jì)算strstart=0時(shí)的ins_h，需要0,1,2這三個(gè)字節(jié)和哈希函數(shù)發(fā)生關(guān)系，所以在lm_init中，預(yù)讀0,1兩個(gè)字節(jié)，并和哈希函數(shù)發(fā)生關(guān)系。

　　然后lm_init調(diào)用 deflate()。
　　 deflate() gzip的LZ77的實(shí)現(xiàn)主要deflate()中。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看