引言 MP3是現(xiàn)在非常流行的一種數(shù)字音頻的壓縮技術(shù),它能夠用12:1的壓縮比將高保真的數(shù)字音頻進(jìn)行壓縮,使得一張MP3光盤上能夠放下十幾張激光唱片的歌曲,而保證回放質(zhì)量依然和激光唱盤一樣。現(xiàn)在不光是計(jì)算機(jī)能夠播放MP3,國內(nèi)不少超級(jí)VCD廠家也紛紛推出了具有播放MP3碟片功能的超級(jí)VCD。下面綜合一些外文資料,對(duì)MP3做一些簡單地介紹。 目錄 MP3的歷史 聲音質(zhì)量 感知音頻編碼的基礎(chǔ) MP3的常見問題 MP3的歷史 1987年,IIS開始在EUREKA項(xiàng)目EU147框架下的數(shù)字聲音廣播(DAB)中的感知音頻編碼問題上進(jìn)行研究工作。在Erlangen大學(xué)(Dieter Seitzer教授)的協(xié)作下,最終IIS設(shè)計(jì)出了一個(gè)非常好的,壓縮比很大的算法,這就是后來被指定為ISO-MPEG音頻壓縮第三層(MP3)標(biāo)準(zhǔn)的算法。(IS 11172-3 and IS 13818-3)。 沒有數(shù)據(jù)的損失,典型的數(shù)字音頻信號(hào)由高于實(shí)際音頻帶寬(如激光唱盤采用44.1kHz)兩倍以上的采樣頻率所采集的樣本記錄組成。所以你最終需要用1.400M位的空間來表示具有CD聲音質(zhì)量的立體聲音樂中僅僅一秒的內(nèi)容。通過使用MPEG音頻編碼,你可以用1:12的壓縮比來大大縮減CD上的原始聲音數(shù)據(jù)而不會(huì)影響聲音質(zhì)量。即使是1:24甚至更高的壓縮比也依然能夠保持聲音質(zhì)量,比你靠降低采樣頻率來獲得你的樣本要好的多?;旧?,這由從事人耳能感知的聲音波形的感知編碼技術(shù)所實(shí)現(xiàn)。 利用MPGE音頻,你可以得到很好的數(shù)據(jù)壓縮而依然保持CD聲音質(zhì)量的原樣。 1:4 | 第一層(符合384kbps立體聲信號(hào)) | 1:6…1:8 | 第二層(符合256..192kbps立體聲信號(hào)) | 1:10…1:12 | 第三層(符合128..112kbps立體聲信號(hào)) | 為了加強(qiáng)立體聲效果和限制音頻帶寬,編碼計(jì)劃應(yīng)該在一個(gè)足夠低的位速率(bitrates)下達(dá)到一個(gè)能接受的聲音質(zhì)量。MPEG第三層是MPEG音頻編碼家族中壓縮功能最強(qiáng)的一個(gè)成員。對(duì)一個(gè)給定的音頻質(zhì)量水平,他只要求最低的位速率或者一個(gè)給定的位速率,就能達(dá)到最高的音頻質(zhì)量。 聲音質(zhì)量 一些MPEG第三層數(shù)據(jù)的典型性能: 聲音質(zhì)量 | 帶 寬 | 模 式 | 位速率 | 壓縮比 | 電話聲音 | 2.5kHz | 單聲道 | 8kbps* | 96:1 | 高于短波的質(zhì)量 | 4.5kHz | 單聲道 | 16kbps | 48:1 | 高于調(diào)幅的質(zhì)量 | 7.5kHz | 單聲道 | 32kbps | 24:1 | 類似調(diào)頻廣播 | 11kHz | 立體聲 | 56..64kbps | 26..24:1 | 接近CD | 15kHz | 立體聲 | 96kbps | 16:1 | CD質(zhì)量 | >15kHz | 立體聲 | 112..128kbps | 14..12:1 | *使用的非ISO的MPEG第三層來提高壓縮質(zhì)量(MPEG 2.5) 在所有的國際收聽測試中,MPEG第三層在1:12的壓縮比下(每一個(gè)聲道64kbps)依然保持原始的聲音質(zhì)量,充分證明了他的高超性能。如果應(yīng)用系統(tǒng)能夠容忍10kHz的帶寬限制,那么可以采用1:24的壓縮比來獲得立體聲信號(hào)的聲音質(zhì)量。 對(duì)于象每聲道60kbps位速率的廣播應(yīng)用系統(tǒng)那樣要采用低位速率的應(yīng)用的地方,ITU-R推薦使用MPEG第三層(ITU-R doc.BS.1115)。 感知音頻編碼的基礎(chǔ) 導(dǎo)言 音頻壓縮、音頻編碼和音頻解碼這幾個(gè)概念目前定義還有些混亂,這一部分將對(duì)音頻編碼究竟是什么做一個(gè)簡要地介紹。 音頻壓縮的目的 直到音頻壓縮出現(xiàn)以前,高品質(zhì)的數(shù)字音頻數(shù)據(jù)要耗費(fèi)很多的磁盤空間來存儲(chǔ)或者要更多的頻道帶寬來傳輸。 我們來看一個(gè)小例子。你想把把你喜歡的一首一分鐘長的歌采樣下來并存儲(chǔ)到你的硬盤上。你希望獲得的是CD那樣的音樂品質(zhì),所以你要采用44.1kHz的采樣頻率,立體聲,量化精度采用每個(gè)樣本16位來表示。 44.1kHz意味著每秒將有44,100個(gè)值從你的聲卡或聲音文件中傳進(jìn)來,由于是雙聲道立體聲,所以要乘以2,由于量化精度是16位,也就是兩個(gè)字節(jié),所以還要再乘一個(gè)2,于是這首歌要用你磁盤上 44,100樣本/秒*2頻道*2字節(jié)/樣本*60秒/分鐘 = 大約10M字節(jié) 的存儲(chǔ)空間.如果你要從因特網(wǎng)上下載,假如調(diào)制解調(diào)速率是28.800,他將耗費(fèi)你 10,000,000字節(jié)*8位/字節(jié)/(28.800位/秒*60秒/分) = 大約49分鐘。 僅僅為了下載一分鐘的立體聲音樂 數(shù)字音頻編碼(本文中他和數(shù)字音頻壓縮是同一個(gè)概念)是音頻數(shù)據(jù)所需要的壓縮存儲(chǔ)空間或頻道帶寬的壓縮藝術(shù)?,F(xiàn)代感知音頻編碼技術(shù)(如MPEG 第三層或MPEG-2 AAC)能夠用12:1的壓縮比來大幅度縮減數(shù)據(jù)量而不損失或者只是很小地?fù)p失了聲音能夠感知的質(zhì)量,其失真度是人耳所不能(或不易)察覺的。 因此,這種方案是高質(zhì)量低位速率的應(yīng)用的技術(shù)關(guān)鍵。這種應(yīng)用包括CD-ROM游戲的聲音軌道,聲音晶體存儲(chǔ)器,因特網(wǎng)聲音,數(shù)字音頻廣播系統(tǒng)等。 音頻壓縮的兩個(gè)部分 音頻壓縮確實(shí)包括兩個(gè)部分。第一個(gè)部分是編碼,他將用WAVE文件表示的聲音信號(hào)轉(zhuǎn)變成高壓縮形式的位流或音頻數(shù)據(jù)編碼。如果要在聲卡上播放這個(gè)位流,你需要第二個(gè)部分—解碼部分。解碼將處理位流使得他還原成WAVE文件。 如何工作的? 高效率的編碼在于去掉冗余信號(hào)以及人的聽音系統(tǒng)并不能感受到的頻率范圍中的不必要的信號(hào)。 所有的編碼器用相同的基本結(jié)構(gòu)。編碼方案可以描述成“感知噪音形態(tài)”或“感知子帶(subband)/變換編碼”。編碼器通過對(duì)聲音信號(hào)的光譜組成分析,計(jì)算出轉(zhuǎn)換的過濾帶,并且通過一個(gè)心理分析模型,來估計(jì)出剛好能被人感知的噪音的級(jí)別。在他的量化和編碼進(jìn)程中,編碼器試圖分配適當(dāng)?shù)臄?shù)據(jù)位數(shù)量,使得在某種程度上能夠符合位速率和需求屏蔽的需要。 解碼器的復(fù)雜度要小的多。他唯一的任務(wù)就是根據(jù)光譜組成的編碼,合成聲音信號(hào)。 壓縮比,位速率和質(zhì)量 這些問題只到現(xiàn)在還沒有明確論及:在編碼和解碼之后得到的最終聲音文件不再和以前的聲音文件一樣了,因?yàn)樗械亩嘤嘈畔ⅲň_一點(diǎn)講是聲音信號(hào)中的多余部分和人無法感知到的無關(guān)部分)都被排除掉了。重新組合出來的WAVE文件和原始的WAVE文件是有區(qū)別的,但是他們的聲音是同樣的。區(qū)別的大小要看他的壓縮比如何了。 因?yàn)閴嚎s比在某種情況下是比較難度量的,所以在討論對(duì)聲音的壓縮能力的時(shí)候?qū)<也捎梦凰俾实母拍?。位速率表示一秒鐘聲音?shù)據(jù)將要使用的平均位數(shù)量。位速率通常的單位是kbps,即每秒多少k位(1k=1024)。 對(duì)于CD中的數(shù)字音頻信號(hào),其位速率是1411.2kbps。近似CD的聲音質(zhì)量采用了96kbps。 MP3常見問題 問:是的,MP3顯然是很多應(yīng)用的關(guān)鍵。那MP3有什么局限性呢? 答:MP3是感知音頻編碼的方案,他是為人耳設(shè)計(jì)的一種聲音工具,他力圖維持原始聲音質(zhì)量。 相比較而言,專門的語音多媒體數(shù)字信號(hào)編碼器是嗓音領(lǐng)域的一種工具,他要力圖維持語音信號(hào)的可理解度。高級(jí)的語音編碼方案(比如CS-ACELP[LD-CELP]被ITU規(guī)定為標(biāo)準(zhǔn)化為G.723.1[G.728])在低到5.3kbps的位速率下達(dá)到了可用的語音再復(fù)制,其多媒體數(shù)字信號(hào)編碼器的延遲低于40ms。在這樣低的位速率下,他們的在純語音信號(hào)處理中表現(xiàn)要比MP3好,他們提供的低延遲很適合完全的語音通話場合。 在MPEG-4方案中,一種綜合處理語音信息和感知音頻編碼的可升級(jí)的方案被設(shè)計(jì)出來。 問:你提出的多媒體數(shù)字信號(hào)編碼器,我可以了解的更多一點(diǎn)嗎? 答:標(biāo)準(zhǔn)中給出了一些理論上的最小延遲: - 第一層:19ms(<50ms)
- 第二層:35ms(100ms)
- 第三層:59ms(150ms)
實(shí)際值要比理論值大。由于實(shí)際值依賴于具體的執(zhí)行,所以不了能給出精確值。括號(hào)內(nèi)的值只是一個(gè)大概的數(shù)值,真正的多媒體數(shù)字信號(hào)編碼將顯示更高的器值。一般只有特定的應(yīng)用不能忍受這種延遲,如遠(yuǎn)程通訊中的反饋鏈。對(duì)大多數(shù)其他應(yīng)用對(duì)這種延遲都能容忍。 問:什么是MPEG? 答:MPEG是“運(yùn)動(dòng)圖像專家組”(Moving Picture Experts Group)在國際標(biāo)準(zhǔn)化組織(ISO)和國際電工委員會(huì)的聯(lián)合指導(dǎo)下開展工作。這個(gè)小組的工作主要針對(duì)運(yùn)動(dòng)圖像和音頻的編碼標(biāo)準(zhǔn)。MPEG有他自己的主頁,提供關(guān)于這個(gè)標(biāo)準(zhǔn)的很多方面的信息。 問:MPEG-3和MPEG第三層是一樣的嗎? 答:不一樣。第三層是一個(gè)功能強(qiáng)大的編碼方案他是MPEG標(biāo)準(zhǔn)中的一個(gè)。第三層是已經(jīng)有的幾個(gè)國際標(biāo)準(zhǔn)中關(guān)于聲音的一個(gè),這幾個(gè)標(biāo)準(zhǔn)還包括MPEG-1和MPEG-2。但是并沒有所謂的MPEG-3的定義。 問:如何得到MPEG文檔? 答:你可以到ISO站點(diǎn)上去查詢。 問:有可用的公共C語言源代碼嗎? 答:在很多站點(diǎn)上有公共C語言源代碼,比如ftp://ftp.iis.fhg.de/pub/layer3/public c/。這個(gè)代碼僅僅只是為了說明問題,所以不要指望他有多好的性能。 問:談?wù)撽P(guān)于MPEG音頻,我總是聽到“第一、二、三層”。他們是什么意思? 答:MPEG描述的是用高性能的感知編碼方案進(jìn)行的音頻信號(hào)的壓縮。在這個(gè)音頻編碼方案家族中有三個(gè)方案,簡稱為第一層、第二層和第三層。從第一層到第三層,編碼器的復(fù)雜度和性能(每位速率的聲音質(zhì)量)都在提高。 這三種多媒體數(shù)字信號(hào)編碼器在分層結(jié)構(gòu)上是兼容的,也就是說第N層的解碼器可以解碼第N層和低于N層的編碼器編碼的位流。 問:我們有了3個(gè)聲音編碼方案的家族,那MPEG的準(zhǔn)確定義是什么? 答:對(duì)于每一層,標(biāo)準(zhǔn)詳細(xì)說明了位流的格式和解碼器。為了適應(yīng)以后的發(fā)展,他沒有特別定義編碼器,但是每一層都有一個(gè)章節(jié)給出編碼器實(shí)現(xiàn)的一個(gè)例子。 問:這三個(gè)音頻層次的共同點(diǎn)是什么? 答:所有的層次用相同的基本結(jié)構(gòu)。編碼方案可以描述成“感知噪音形態(tài)”或“感知子帶(subband)/變換編碼”。編碼器通過對(duì)聲音信號(hào)的光譜組成分析,計(jì)算出轉(zhuǎn)換的過濾帶,并且通過一個(gè)心理分析模型,來估計(jì)出剛好能被人感知的噪音的級(jí)別。在他的量化和編碼進(jìn)程中,編碼器試圖分配適當(dāng)?shù)臄?shù)據(jù)位數(shù)量,使得在某種程度上能夠符合位速率和需求屏蔽的需要。 解碼器的復(fù)雜度要小的多。他唯一的任務(wù)就是根據(jù)光譜組成的編碼,合成聲音信號(hào)。 所有的層用相同的分析過濾帶(有32個(gè)子帶的多個(gè)相)。第三層加上一個(gè)MDCT轉(zhuǎn)換來增加頻率分析。所有的層在其位流中用相同的信號(hào)頭,以支持標(biāo)準(zhǔn)的層次結(jié)構(gòu)。 所有的層有相似的位錯(cuò)誤敏感;都支持在他們的音頻數(shù)據(jù)位流中增加和程序相關(guān)聯(lián)的信息;都用32,44.1或者48kHz采樣頻率;都允許在相似的位速率下工作(第一層從32kbps到448kbps;第二層32kbps到384kbps;第三層從32kbps到320kbps) 問:從全局看,這三層之間的主要區(qū)別是什么? 答:從第一層到第三層,復(fù)雜程度在增加(主要是編碼器上),總體上看,多媒體數(shù)字信息編碼器的延遲時(shí)間在增加,性能也在增長(每個(gè)位速率的聲音質(zhì)量)。 問:在音頻部分,MPEG-1和MPEG-2之間的主要區(qū)別是什么? 答:MPEG-1和MPEG-2用同一個(gè)家族的聲音多媒體數(shù)字信息編碼器,不管是第一層,第二層還是第三層。MPEG-2的新的音頻特性是“低采樣頻率的擴(kuò)展”和“多聲道擴(kuò)展”。“低采樣頻率的擴(kuò)展”是指為那些限制了帶寬需求的位速率非常低的應(yīng)用系統(tǒng)服務(wù)的場合,新的采樣頻率是16,22.05或24kHz,位速率擴(kuò)展到8kbps以下。“多聲道擴(kuò)展”是指服務(wù)于那些擁有5個(gè)主要聲道(左、右、中置、左環(huán)繞和右環(huán)繞)的環(huán)繞聲系統(tǒng),有的環(huán)繞聲系統(tǒng)甚至還要額外加一個(gè)低頻增進(jìn)聲道來處理低頻音信號(hào),對(duì)這種系統(tǒng),“多聲道擴(kuò)展”允許包含直至7個(gè)聲道。 問:所有的兼容是相互的嗎? 答:或多或少有一點(diǎn)。說有,是基于低采樣頻率的擴(kuò)展上說的。顯然,一個(gè)純粹的MPEG-1解碼器不能處理新的采樣頻率。 問:你的意思是兼容?包括所有額外的聲道?請(qǐng)解釋。 答:在MPEG-2的定義階段,兼容性是個(gè)主要的課題。主要的思想是采用和MPEG-1一樣的基本位流格式,主要的數(shù)據(jù)域象以前那樣運(yùn)載左右聲道的信號(hào),附加的數(shù)據(jù)域運(yùn)載擴(kuò)展的多聲道信息。在細(xì)節(jié)上沒有什么太大的區(qū)別,在這里有兩個(gè)術(shù)語要做解釋:“向前兼容”:MPEG-2的解碼器可以接受MPEG-1的音頻位流(他只有單聲道或雙聲道);“向后兼容”:MPEG-1的解碼器至少能夠解碼MPEG-2的音頻位流中的主數(shù)據(jù)域的兩個(gè)聲道的信息,而MPEG-2的音頻位流矩陣能夠?qū)h(huán)繞信息溶入到左右聲道中,其方法是:左聲道=左聲道信號(hào)+a*中置信號(hào)+b*左環(huán)繞信號(hào);右聲道=右聲道信號(hào)+a*中置信號(hào)+b*右環(huán)繞信號(hào)。這樣MPEG-1解碼器就能夠全面地再現(xiàn)所有5個(gè)聲道的信息了。一個(gè)MPEG-2解碼器用多聲道擴(kuò)展信號(hào)(多余3個(gè)的音頻信號(hào))來再現(xiàn)5個(gè)環(huán)繞信道。 問:在你的腳注中,你指出為了在比如8kbps的單聲道這樣極低的位速率下能獲得很好的性能,你們采用了一種叫MPEG2.5的非ISO擴(kuò)展的多媒體數(shù)字信號(hào)解碼器,對(duì)這一點(diǎn)你有什么說明的嗎? 答:哦,是的,作為低采樣頻率的擴(kuò)展,MPEG-2標(biāo)準(zhǔn)允許位速率低到8kbps。在這樣低的位速率下,有效的音頻帶寬被限制了,比如到3kHz,因此實(shí)際的采樣頻率可以下降,比如到8kHz。采樣頻率越低,頻率的解析就越好,相反,時(shí)間解析就越差,而控制信號(hào)和在位流格式中的音頻有效載荷之間的比值就越好。由于MPEG-2標(biāo)準(zhǔn)定義16kHz作為最低的采樣頻率,我們建議更多的擴(kuò)展應(yīng)該建立在對(duì)MPEG-2的采樣頻率不斷2分的基礎(chǔ)上,也就是說我們建議8,11.025和12kHz,我們稱這種擴(kuò)展為MPEG2.5。 問:我看了你關(guān)于“類似CD”性能的說明,你說,在第一層數(shù)據(jù)壓縮比可以達(dá)到4:1(或者384kbps的總位速率),在第二層壓縮比為6..8:1(或256..192kbps總位速率),在第三層壓縮比為12..14:1(或128..112kbps總位速率),你能更詳細(xì)低解釋一下嗎? 答:好的,每一個(gè)層次都在一定的程度上有所改進(jìn)。最簡單的形式是第一層,他主要是針對(duì)DCC(數(shù)字小型盒式錄音機(jī))來設(shè)計(jì)的,主要采用384kbps。第二層是針對(duì)復(fù)雜性和性能均衡來設(shè)計(jì)的。他能夠在位速率下降到192kbps的情況下保證聲音質(zhì)量。再往下聲音質(zhì)量就會(huì)受到影響。而第三層正是從此開始專為低位速率設(shè)計(jì)的,他在第二層的基礎(chǔ)上增加了一些“高級(jí)的特色”:頻率的解析提高了18倍,這使得第三層的編碼器能夠在屏蔽極限內(nèi)更好地適應(yīng)量化噪音。只有第三層采用熵編碼來更好的減少冗余,也只有第三層采用一個(gè)位蓄積來減少人為的因素,同時(shí)第三層采用更先進(jìn)聯(lián)合立體聲編碼方案。 問:哦?,F(xiàn)在請(qǐng)告訴我們更多的有關(guān)聲音質(zhì)量的東西,你們?nèi)绾卧u(píng)定聲音質(zhì)量的? 答:現(xiàn)在不可選擇的要用昂貴的聽音測試了。在ISO-MPEG制定過程中,一個(gè)由很多經(jīng)過訓(xùn)練的試聽者組織的一系列國際性的聽音測試已經(jīng)進(jìn)行過了。所有的這些測試采用了“三元刺激,隱蔽鑒定”的方法和“CCIR(國際無線電咨詢委員會(huì))損傷等級(jí)”來評(píng)估聲音的質(zhì)量。聽力序列采用“ABC”,A=原始的,BC=一對(duì)原始/編碼信號(hào)的隨機(jī)序列,試聽者必須用一個(gè)1.0到5.0之間的數(shù)對(duì)A和B進(jìn)行評(píng)估。這個(gè)值的含義是5.0=透明(這就是原始數(shù)據(jù)),4.0=可察覺的,但不讓人討厭的(第一個(gè)能注意到的差別),3.0=稍微討厭點(diǎn)的,2.0=討厭的,1.0=非常討厭的。 問:聽音測試確實(shí)非常昂貴,他真的不可選擇嗎? 答:至少現(xiàn)在是這樣的。以后也許不一樣。為了對(duì)感知的多媒體數(shù)字信號(hào)編碼器進(jìn)行聲音質(zhì)量評(píng)定,所有常規(guī)的“質(zhì)量”參數(shù)(如信噪比,失真度,帶寬)就無效了,只要多媒體數(shù)字信號(hào)編碼器的引入噪音和失真不影響感覺聲音的質(zhì)量就行。所以聽音測試是必須的,而且如果精心準(zhǔn)備和執(zhí)行,他們能得到可靠的結(jié)果。 然而,IIS也在致力于聲音質(zhì)量評(píng)估工具的標(biāo)準(zhǔn)和發(fā)展的研究。并且有了第一個(gè)可用的產(chǎn)品,一個(gè)實(shí)時(shí)衡量工具能夠精細(xì)地提供對(duì)感知聲音多媒體數(shù)字信息編碼器的分析。 問:好的,回到聽音測試和性能評(píng)估上來,下面告訴我們一些有關(guān)結(jié)果 答:你可能要學(xué)習(xí)很多關(guān)于AES文件和MPEG文檔的細(xì)節(jié)的知識(shí)。對(duì)于MPEG第三層,主要結(jié)果是他總能在低位速率(每聲道64kbps或更低)下獲得好的性能。還不止這個(gè),雖然第三層采用和第二層一樣的工具集,但是有了一些針對(duì)非常低位速率的譯碼附加的高級(jí)譯碼特性。一個(gè)很好的例子是ISO-MPEG聽音測試94年9月在日本完成的(doc. ISO/IEC JTC1/SC29/WG11 N0848, 11, Nov. 94)。另一個(gè)有趣的結(jié)果是ITU-R內(nèi)部的TG 10/2任務(wù)小組得出的結(jié)論,他們?cè)跀?shù)字聲音廣播應(yīng)用系統(tǒng)建議使用低位速率的音頻譯碼。(ITU doc. BS. 1115)。 問:很有意思!能更詳細(xì)的談?wù)勥@一建議嗎? 答:TG 10/2任務(wù)小組在93年10月完成的這個(gè)任務(wù)。該建議定義了三個(gè)領(lǐng)域的廣播應(yīng)用,建議每頻道180kbps的第二層應(yīng)用于發(fā)行和投稿領(lǐng)域(20kbps帶寬,能在5層的多媒體數(shù)字信號(hào)編碼器中聽不到任何損傷),建議每頻道128kbps的第二層應(yīng)用于發(fā)射領(lǐng)域(20kHz帶寬),建議MPEG第三層使用60(120)kbps應(yīng)用于單聲道(立體聲)信號(hào)于實(shí)況報(bào)道領(lǐng)域(15kHz帶寬)。 問:在哪能得到更多的信息? 答:在大約10年之間,感知音頻編碼在很多的學(xué)術(shù)會(huì)議上是一個(gè)長久的話題:例如AES(音頻工程協(xié)會(huì))組織每年兩次的常規(guī)會(huì)議。你將發(fā)現(xiàn)下列有幫助的論文: |