數(shù)字視頻的采樣格式及數(shù)字化標(biāo)準(zhǔn)
模擬視頻的數(shù)字化包括不少技術(shù)問題,如電視信號(hào)具有不同的制式而且采用復(fù)合的YUV信號(hào)方式,而計(jì)算機(jī)工作在RGB空間;電視機(jī)是隔行掃描,計(jì)算機(jī)顯示器大多逐行掃描;電視圖像的分辨率與顯示器的分辨率也不盡相同等等。因此,模擬視頻的數(shù)字化主要包括色彩空間的轉(zhuǎn)換、光柵掃描的轉(zhuǎn)換以及分辨率的統(tǒng)一。
模擬視頻一般采用分量數(shù)字化方式,先把復(fù)合視頻信號(hào)中的亮度和色度分離,得到Y(jié)UV或YIQ分量,然后用三個(gè)模/數(shù)轉(zhuǎn)換器對(duì)三個(gè)分量分別進(jìn)行數(shù)字化,最后再轉(zhuǎn)換成RGB空間。
一、數(shù)字視頻的采樣格式
根據(jù)電視信號(hào)的特征,亮度信號(hào)的帶寬是色度信號(hào)帶寬的兩倍。因此其數(shù)字化時(shí)可采用幅色采樣法,即對(duì)信號(hào)的色差分量的采樣率低于對(duì)亮度分量的采樣率。用Y:U:V來表示YUV三分量的采樣比例,則數(shù)字視頻的采樣格式分別有4:1:1、4:2:2和4:4:4三種。電視圖像既是空間的函數(shù),也是時(shí)間的函數(shù),而且又是隔行掃描式,所以其采樣方式比掃描儀掃描圖像的方式要復(fù)雜得多。分量采樣時(shí)采到的是隔行樣本點(diǎn),要把隔行樣本組合成逐行樣本,然后進(jìn)行樣本點(diǎn)的量化,YUV到RGB色彩空間的轉(zhuǎn)換等等,最后才能得到數(shù)字視頻數(shù)據(jù)。
二、數(shù)字視頻標(biāo)準(zhǔn)
為了在PAL、NTSC和 SECAM電視制式之間確定共同的數(shù)字化參數(shù),國(guó)家無線電咨詢委員會(huì)(CCIR)制定了廣播級(jí)質(zhì)量的數(shù)字電視編碼標(biāo)準(zhǔn),稱為CCIR 601標(biāo)準(zhǔn)。在該標(biāo)準(zhǔn)中,對(duì)采樣頻率、采樣結(jié)構(gòu)、色彩空間轉(zhuǎn)換等都作了嚴(yán)格的規(guī)定,主要有:
1、采樣頻率為f s=13.5MHz
2、分辨率與幀率
電視制式 分辨率 幀 率
NTSC 640×480 30
PAL、SECAM 768×576 25
3、根據(jù)f s的采樣率,在不同的采樣格式下計(jì)算出數(shù)字視頻的數(shù)據(jù)量:
采樣格式(Y:U:V) 數(shù)據(jù)量(Mbyte / s)
4:2:2 27
4:4:4 40
這種未壓縮的數(shù)字視頻數(shù)據(jù)量對(duì)于目前的計(jì)算機(jī)和網(wǎng)絡(luò)來說無論是存儲(chǔ)或傳輸都是不現(xiàn)實(shí)的,因此在多媒體中應(yīng)用數(shù)字視頻的關(guān)鍵問題是數(shù)字視頻的壓縮技術(shù)。
三、視頻序列的SMPTE表示單位
通常用時(shí)間碼來識(shí)別和記錄視頻數(shù)據(jù)流中的每一幀,從一段視頻的起始幀到終止幀,其間的每一幀都有一個(gè)唯一的時(shí)間碼地址。根據(jù)動(dòng)畫和電視工程師協(xié)會(huì)SMPTE(Society of Motion Picture and Television Engineers)使用的時(shí)間碼標(biāo)準(zhǔn),其格式是:小時(shí):分鐘:秒:幀,或 hours:minutes:seconds:frames。 一段長(zhǎng)度為00:02:31:15的視頻片段的播放時(shí)間為2分鐘31秒15幀,如果以每秒30幀的速率播放,則播放時(shí)間為2分鐘31.5秒。
根據(jù)電影、錄像和電視工業(yè)中使用的幀率的不同,各有其對(duì)應(yīng)的SMPTE標(biāo)準(zhǔn)。由于技術(shù)的原因NTSC制式實(shí)際使用的幀率是29.97fps而不是30fps,因此在時(shí)間碼與實(shí)際播放時(shí)間之間有0.1%的誤差。為了解決這個(gè)誤差問題,設(shè)計(jì)出丟幀(drop-frame)格式,也即在播放時(shí)每分鐘要丟2幀(實(shí)際上是有兩幀不顯示而不是從文件中刪除),這樣可以保證時(shí)間碼與實(shí)際播放時(shí)間的一致。與丟幀格式對(duì)應(yīng)的是不丟幀(nondrop-frame)格式,它忽略時(shí)間碼與實(shí)際播放幀之間的誤差。
視頻壓縮編碼的基本概念
視頻壓縮的目標(biāo)是在盡可能保證視覺效果的前提下減少視頻數(shù)據(jù)率。視頻壓縮比一般指壓縮后的數(shù)據(jù)量與壓縮前的數(shù)據(jù)量之比。由于視頻是連續(xù)的靜態(tài)圖像,因此其壓縮編碼算法與靜態(tài)圖像的壓縮編碼算法有某些共同之處,但是運(yùn)動(dòng)的視頻還有其自身的特性,因此在壓縮時(shí)還應(yīng)考慮其運(yùn)動(dòng)特性才能達(dá)到高壓縮的目標(biāo)。在視頻壓縮中常需用到以下的一些基本概念:
一、有損和無損壓縮:在視頻壓縮中有損(Lossy )和無損(Lossless)的概念與靜態(tài)圖像中基本類似。無損壓縮也即壓縮前和解壓縮后的數(shù)據(jù)完全一致。多數(shù)的無損壓縮都采用RLE行程編碼算法。有損壓縮意味著解壓縮后的數(shù)據(jù)與壓縮前的數(shù)據(jù)不一致。在壓縮的過程中要丟失一些人眼和人耳所不敏感的圖像或音頻信息,而且丟失的信息不可恢復(fù)。幾乎所有高壓縮的算法都采用有損壓縮,這樣才能達(dá)到低數(shù)據(jù)率的目標(biāo)。丟失的數(shù)據(jù)率與壓縮比有關(guān),壓縮比越小,丟失的數(shù)據(jù)越多,解壓縮后的效果一般越差。此外,某些有損壓縮算法采用多次重復(fù)壓縮的方式,這樣還會(huì)引起額外的數(shù)據(jù)丟失。
二、幀內(nèi)和幀間壓縮:幀內(nèi)(Intraframe)壓縮也稱為空間壓縮(Spatial compression)。當(dāng)壓縮一幀圖像時(shí),僅考慮本幀的數(shù)據(jù)而不考慮相鄰幀之間的冗余信息,這實(shí)際上與靜態(tài)圖像壓縮類似。幀內(nèi)一般采用有損壓縮算法,由于幀內(nèi)壓縮時(shí)各個(gè)幀之間沒有相互關(guān)系,所以壓縮后的視頻數(shù)據(jù)仍可以以幀為單位進(jìn)行編輯。幀內(nèi)壓縮一般達(dá)不到很高的壓縮。
采用幀間(Interframe)壓縮是基于許多視頻或動(dòng)畫的連續(xù)前后兩幀具有很大的相關(guān)性,或者說前后兩幀信息變化很小的特點(diǎn)。也即連續(xù)的視頻其相鄰幀之間具有冗余信息,根據(jù)這一特性,壓縮相鄰幀之間的冗余量就可以進(jìn)一步提高壓縮量,減小壓縮比。幀間壓縮也稱為時(shí)間壓縮(Temporal compression),它通過比較時(shí)間軸上不同幀之間的數(shù)據(jù)進(jìn)行壓縮。幀間壓縮一般是無損的。幀差值(Frame differencing)算法是一種典型的時(shí)間壓縮法,它通過比較本幀與相鄰幀之間的差異,僅記錄本幀與其相鄰幀的差值,這樣可以大大減少數(shù)據(jù)量。
三、對(duì)稱和不對(duì)稱編碼:對(duì)稱性(symmetric)是壓縮編碼的一個(gè)關(guān)鍵特征。對(duì)稱意味著壓縮和解壓縮占用相同的計(jì)算處理能力和時(shí)間,對(duì)稱算法適合于實(shí)時(shí)壓縮和傳送視頻,如視頻會(huì)議應(yīng)用就以采用對(duì)稱的壓縮編碼算法為好。而在電子出版和其它多媒體應(yīng)用中,一般是把視頻預(yù)先壓縮處理好,爾后再播放,因此可以采用不對(duì)稱(asymmetric)編碼。不對(duì)稱或非對(duì)稱意味著壓縮時(shí)需要花費(fèi)大量的處理能力和時(shí)間,而解壓縮時(shí)則能較好地實(shí)時(shí)回放,也即以不同的速度進(jìn)行壓縮和解壓縮。一般地說,壓縮一段視頻的時(shí)間比回放(解壓縮)該視頻的時(shí)間要多得多。例如,壓縮一段三分鐘的視頻片斷可能需要10多分鐘的時(shí)間,而該片斷實(shí)時(shí)回放時(shí)間只有三分鐘。
目前有多種視頻壓縮編碼方法,但其中最有代表性的是MPEG數(shù)字視頻格式和AVI數(shù)字視頻格式。
MPEG數(shù)字視頻
MPEG(Moving Picture Experts Group)是1988年成立的一個(gè)專家組。這個(gè)專家組在1991年制定了一個(gè)MPEG-1國(guó)際標(biāo)準(zhǔn),其標(biāo)準(zhǔn)名稱為“動(dòng)態(tài)圖像和伴音的編碼--用于速率小于每秒約1.5兆比特的數(shù)字存儲(chǔ)媒體(Coding of moving picture and associated audio--for digital storage media at up to about 1.5Mbit / s)”。這里的數(shù)字存儲(chǔ)媒體指一般的數(shù)字存儲(chǔ)設(shè)備如CD-ROM、硬盤和可擦寫光盤等。MPEG的最大壓縮可達(dá)約1:200,其目標(biāo)是要把目前的廣播視頻信號(hào)壓縮到能夠記錄在CD光盤上并能夠用單速的光盤驅(qū)動(dòng)器來播放,并具有VHS的顯示質(zhì)量和高保真立體伴音效果。MPEG采用的編碼算法簡(jiǎn)稱為MPEG算法,用該算法壓縮的數(shù)據(jù)稱為MPEG數(shù)據(jù),由該數(shù)據(jù)產(chǎn)生的文件稱MPEG文件,它以MPG為文件后綴。
MPEG數(shù)字視頻格式
MPEG采用有損和不對(duì)稱的壓縮編碼算法。MPEG標(biāo)準(zhǔn)詳細(xì)地說明了視頻圖像的壓縮和解壓縮方法,以及播放MPEG數(shù)據(jù)所需的圖像與聲音的同步。MPEG標(biāo)準(zhǔn)包括三個(gè)部分:MPEG視頻(Video)、MPEG音頻(Audio)和MPEG系統(tǒng)(System)。
一、MPEG視頻:MPEG視頻是標(biāo)準(zhǔn)的核心。MPEG-1是為了適應(yīng)在數(shù)字存儲(chǔ)媒體如CD-ROM上有效地存取視頻圖像而制定的標(biāo)準(zhǔn)。CD-ROM驅(qū)動(dòng)器的數(shù)據(jù)傳輸率不會(huì)低于150KB/s=1.2Mb/s(單倍速),而容量不會(huì)低于650MB,MPEG-1算法就是針對(duì)這個(gè)速率開發(fā)的。MPEG-1的的視窗尺寸為CCIR 601定義分辨率的二分之一,可達(dá)到30fps或25fps的幀率,它采用多種壓縮算法,壓縮后的數(shù)據(jù)率為1.2-3MB/s。因此可以實(shí)時(shí)播放存儲(chǔ)在光盤上的數(shù)字視頻圖像。
二、MPEG音頻:MPEG-1標(biāo)準(zhǔn)支持高壓縮的音頻數(shù)據(jù)流,其采樣率為44、22和11KHz,16位量化。還原后聲音質(zhì)量接近于原來的聲音質(zhì)量,如CD-DA的音質(zhì)。CA-DA音質(zhì)的音頻數(shù)據(jù)率為每分鐘約10兆字節(jié)(10MB/min),等價(jià)于每秒約1.4兆位(1.4Mb/s),這是單速CD-ROM的整個(gè)帶寬!采用MPEG-1音頻壓縮算法可以把單聲道位速率降到0.192Mb/s,甚至更低,而聲音的質(zhì)量又無明顯的下降。MPEG-1支持兩個(gè)聲道,可設(shè)置成單聲道(mono)、雙聲道(dual)、立體聲(stereo)等。
目前在網(wǎng)絡(luò)上廣泛使用的MP3音頻文件,就是利用 MPEG-3的音頻技術(shù), 實(shí)現(xiàn)了1:10 甚至 1:12 的壓縮率,而且失真很小。
三、MPEG系統(tǒng):這部分是有關(guān)同步和多路復(fù)合技術(shù),用來把數(shù)字電視圖像和伴音復(fù)合成單一的、位速率為1.5Mb/s的數(shù)據(jù)位流。MPEG的數(shù)據(jù)位流分成內(nèi)外兩層,外層為系統(tǒng)層,內(nèi)層為壓縮層。系統(tǒng)層提供在一個(gè)系統(tǒng)中使用MPEG數(shù)據(jù)位流所必須的功能,包括定時(shí)、復(fù)合和分離視頻圖像和伴音,以及在播放期間圖像和伴音的同步。壓縮層包含壓縮的視頻和伴音數(shù)據(jù)位流。
在多種視頻壓縮算法中,MPEG是可提供低數(shù)據(jù)率和高質(zhì)量的最好算法。MPEG-1已經(jīng)為廣大用戶所采用,如VCD或小影碟的發(fā)行等。其播放質(zhì)量可以達(dá)到家用錄像機(jī)的水平。采用不同的編碼參數(shù),得到的MPEG-1數(shù)據(jù)的質(zhì)量也是不同的。同時(shí),MPEG專家組在1993年又制定了MPEG-2標(biāo)準(zhǔn),DVD 就是采用的這種標(biāo)準(zhǔn)。
MPEG-1數(shù)據(jù)的回放
由于MPEG采用非對(duì)稱的壓縮算法,在PC機(jī)上用軟件來進(jìn)行MPEG壓縮編碼是很費(fèi)機(jī)時(shí)的,即使編碼幾個(gè)視頻片斷也要花費(fèi)好幾小時(shí)。因此,一般用專門的MPEG編碼卡,用硬件實(shí)現(xiàn)MPEG壓縮編碼。要回放壓縮的MPEG數(shù)據(jù),首先要對(duì)其進(jìn)行解碼,然后把解壓縮后的大量數(shù)字視頻數(shù)據(jù)送往顯示緩存進(jìn)行屏幕顯示。因此,影響回放效果的因素主要有兩點(diǎn):一是解碼的速率,二是顯示的速率。解碼的速度比編碼的速度快得多,因此在不同的MPC硬件基礎(chǔ)上可以采用軟件解碼和硬件解碼兩種方式。
一、MPEG-1軟件解碼:軟件解碼即采用軟件算法的方式讀取MPEG壓縮數(shù)據(jù),對(duì)其進(jìn)行解壓縮并把解壓縮后的大量數(shù)字視頻數(shù)據(jù)送往顯示緩存進(jìn)行屏幕顯示。所以MPEG解壓縮軟件也稱為MPEG播放軟件。采用軟件解碼的優(yōu)點(diǎn)是它無需額外硬件的支持,在MPC機(jī)上就可以播放MPEG數(shù)字視頻,使用方便;其缺點(diǎn)是解碼的速度和解碼后的視頻質(zhì)量完全取決于MPC的處理能力。
如果MPC的處理速度和顯示速度不夠快,采用軟件解碼播放MPEG數(shù)據(jù)時(shí)可能出現(xiàn)幀率不夠、圖像和伴音不同步或者圖像的“馬賽克”現(xiàn)象(圖像呈塊狀)。因此,在一定的硬件條件下,盡可能地利用MPC的系統(tǒng)資源是達(dá)到較好回放效果的關(guān)鍵。
二、MPEG-1硬解壓卡:MPEG硬解壓卡(簡(jiǎn)稱解壓卡)是專用于MPEG數(shù)據(jù)的解壓和回放的硬件設(shè)備,解壓卡的核心是一塊解壓芯片。采用硬件解壓的優(yōu)點(diǎn)是其解壓和回放的速率不受MPC主機(jī)速率的影響,達(dá)到全屏實(shí)時(shí)回放,播放VCD時(shí)其穩(wěn)定性和色彩效果也較好。但其缺點(diǎn)是需額外的硬件設(shè)備,并且其安裝調(diào)試也較麻煩。因此,硬件解壓卡一般用于處理速度不夠高的MPC中。
解壓卡需插入MPC主機(jī)的擴(kuò)展槽中,把端口與MPC相應(yīng)的端口相連,設(shè)置好系統(tǒng)參數(shù),利用解壓卡自帶的播放軟件就可以進(jìn)行MPEG-1的回放了。
雖然MPEG-1具有標(biāo)準(zhǔn)化、高壓縮、視頻質(zhì)量好的特點(diǎn),但是它生成的MPEG文件需要用專門的解壓軟件或硬件來回放,解壓軟件的回放效果取決于系統(tǒng)的處理能力,而解壓硬件又需額外的設(shè)備,不利于用戶在自己開發(fā)的軟件中應(yīng)用。此外,為了獲得高壓縮,MPEG采用幀間壓縮算法,由于幀間壓縮時(shí)每一幀僅存儲(chǔ)與前一幀信息的差值,對(duì)幀進(jìn)行編輯時(shí)就非常困難。MPEG文件只能用解壓軟件或硬件解壓后回放,而不能用絕大多數(shù)的視頻編輯軟件進(jìn)行編輯。因此,除了MPEG數(shù)字視頻以外,目前較為流行的還有AVI數(shù)字視頻。