作者:未知 文章來源:
網絡 更新時間:2006-7-7
自1948年提出視頻數字化概念后, 經過將近40年的探索, 于1982年提出了電視演播室數字編碼的國際標準(CCIR 601號建議);又于1984年提出了第一個實用化的、適應于會議電視和可視電話要求的H.261標準;1993年公布了活動圖像的編碼壓縮標準MPEG-1;1994年發(fā)表了MPEG-2標準, 該標準向下兼容MPEG-1, 向上兼容HDTV的圖像質量;1999年公布了MPEG-4標準; 今后還計劃發(fā)表MPEG-7標準。下面將上述國際標準逐一介紹。
1、CCIR 601號建議
為了便于國際間的節(jié)目交換,為消除數字設備之間的制式差別,和為 625行電視系統(tǒng)與 525行電視系統(tǒng)之間兼容,在 1982年 2月國際無線電咨詢委員會(CCIR)第 15次全會上,通過了 601號建議,確定以分量編碼為基礎, 即以亮度分量Y、和兩個色差分量R-Y、B-Y為基礎進行編碼,作為電視演播室數字編碼的國際標準。
該標準規(guī)定: (1).不管是PAL制,還是NTSC制電視,Y、R-Y、B-Y三分量的抽樣頻率分別為13.5MHz、6.75MHz、6.75MHz。(2). 抽樣后采用線性量化,每個樣點的量化比特數用于演播室為10bit, 用于傳輸為8bit。(3). Y、R-Y、B-Y三分量樣點之間比例為4:2: 2。
在 1983年 9月召開的國際無線電咨詢委員會(CCIR)中期會議上,又作了三點補充:(l)明確規(guī)定編碼信號是經過γ預校正的 Y、(R-Y)、B-Y)信號;(2)相應于量化級 0和 255的碼字專用于同步, l到254的量化級用于視頻信號; (3)進一步明確了模擬與數字行的對應關系,并規(guī)定從數字有效行末尾至基準時間樣點的間隔,對 525行、 60場/秒制式來說為 1 6個樣點,對 625行、 50場/秒制式則為 12個樣點。不論 625行/50場或 525行/60場,其數字有效行的亮度樣點數都是 720,色差信號的樣點數均是360,這是為了便于制式轉換。若亮度樣點數被 2除,就得到色差信號的數據。
2、H.261標準
1984年國際電報電話咨詢委員會的第 15研究組成立了一個專家組,專門研究電視電話的編碼問題,所用的電話網絡為綜合業(yè)務數據網絡ISDN,當時的目標是推薦一個圖像編碼標準,其傳輸速率為 m×384kb/s(千位/秒),m= l,2,3,4,5。這里384kb/s在 ISDN中稱為 Ho信道。另有基本信道 B的速率為64kb/s, 6×B= 384kb/s。5×Ho = 30×B= 1920kb/s為窄帶 ISDN的最高速率。后來因為 384kb/s速率作為起始點偏高,廣泛性受限制,另外跨度也太大,靈活性受影響,所以改為 p×64kb/s, p= l, 2,3,..30。最后又把 p擴展到 32,因為 32×64kb/s=2084kb/s, 其中 2084=211,基本上等于2Mb/s, 實際上已超過了窄帶 ISDN的最高速率1920kb/s,最高速率也稱信道容量。經過5年以上的精心研究和努力,終于在 1990年12月完成和批準了CCITT推薦書 H.261,即"采用 p×64kb/s的聲像業(yè)務的圖像編解碼",H.261簡稱 p×64。
由于 H.261標準是用于電視電話和電視會議,所以推薦的圖像編碼算法必須是實時處理的,并且要求最小的延遲時間,因為圖像必須和語音密切配合,否則必須延遲語音時間。當 p取l或2時,速率只能達到128kb/s, 由于速率較低只能傳清晰度不太高的圖像,所以適合于面對面的電視電話。當 p>6時,速率>384kb/s則速率較高,可以傳輸清晰度尚好的圖像,所以適用于電視會議。
3、 JPEG標準
靜像數據壓縮標準 JPEG(Joint Photo一graphic Experts Group),直譯為聯合攝影術專家組,其中聯合是指幾個國際組織的聯合。它是從1986年正式開始制訂的。當時由兩個國際組織聯合支持,其一,是國際標準組織 ISO; 其二,是國際電報電話咨詢委員會 CCITT。到 1987年 l1月,國際電工委員會 IEC也參加合作,因此說 JPEG是三個國際組織合作的成果。雖然從 1986開始,經過許多次國際會議討論和修改后,于1992年 7月 2日表決通過標準的第一部分,但是可能對有關測試標準草案(即標準的第二部分)作進一步修改。JPEG是 ISO的標準,同時也CCITT的推薦標準。
JPEG是數字圖像壓縮的國際標準。它用于連續(xù)變化的靜止圖像,這里包括灰度等級和顏色兩方面的連續(xù)變化。JPEG包含兩種基本壓縮方法,各有不同的操作模式。第一種是有損壓縮,它是以DCT(Discrete Cosine Transform)為基礎的壓縮方法。第二種為無損壓縮,又稱預測壓縮方法。但最常使用的是第一種, 即DCT壓縮方法,也稱為基線順序編解碼(Baseline Sequential Codec)方法,因為這種方法的優(yōu)點是先進、有效、簡單、易于交流,因此應用廣泛,是以DCT為基礎的最基本、最重要的方法。
4、MPEG- l標準
MPEG是活動圖像專家組(Moving Picture Expert Group)的英文縮寫。實際上,它是標準化組織(ISO)和國際電工委員會(IEC)聯合技術委員會l(JTC l)的第29分委員會(SC29)的第 l l工作組(WG l l),其全稱是 WG l l of SC 29 of ISO/IEC JTCl。MPEG的任務是開發(fā)運動圖像及其聲音的數字編碼標準,成立于1988年。
專家組最初的任務有三個:實現1.5Mb/s、 10Mb/s、 40Mb/s的壓縮編碼標準,即 MPEG-l、MPEG-2、MPEG-3。但因為 MPEG-2的功能已使 MPEG-3為多余,所以 MPEG-3于1992月撤消。MPEG-4項目是1991年5月建議并于 1993年 7月確認,其目標是甚低數碼率的音頻壓縮編碼(碼率低于28.8Kb/s)。下面分別介紹各個標準。
隨著數字音頻和數字視頻技術的廣泛應用,ISO的活動圖像專家組(MPEG)在1991年11月提出了 ISO ll172標準的建議草案,通稱 MPEG-1標準。該標準于 1992年 11月通過, 1993年8月公布。MPEG-1標準適用于數碼率在1.5Mbps左右的應用環(huán)境,也就是為CD-ROM光盤的視頻存儲和放像所制定的。
MPEG-l標準可以處理各種類型的活動圖像,其基本算法對于壓縮水平方向360個像素豎直方向 288個象素的空間分辨力,每秒24至30幅畫面的運動圖像有很好的效果,在 MPEG-1標準中的一幀圖像的概念不同于電視中幀的概念,前者一定是成逐行掃描的圖像,如果待處理信號是隔行掃描的圖像,則編碼前必須將其轉換成逐行掃描的格式。
--MPEG-l標準提供了一些錄像機的功能:正放,圖像凍結、快進、快倒和慢放。此外,還提供了隨機存儲的功能,當然,解碼器這些功能的實現在一定程度上同圖像數據存儲介質相關。
MPEG-l標準采用了一系列技術以獲得高壓縮比,第一,對色差信號進行亞采樣,減少數據量 ;第二,采用運動補償技術減少幀間冗余度;第三,做二維DCT變換去除空間相關性; 第四,對DCT分量進行量化,舍去不重要的信息,將量化后DCT分量按照頻率重新排序; 第五,將 DCT分量進行變字長編碼 ;第六,對每數據塊的直流分量(DC)進行預測差分編碼MPEG-l中的圖像類型共分四種: I圖像, 或稱Intra圖像,采用幀內編碼,不參照其它圖像; P圖像, 或稱Predicted圖像, 它們參照前一幅I或P圖像做運動補償編碼; B圖像,或稱雙向預測圖像,它們參照前一幅和后一幅I或P圖像做雙向運動補償編碼; D圖像,或稱直流(DC) 圖像,這類圖像中只含直流分量,是為快放功能而設計的。
5、MPEG-2標準
MPEG-2是由 MPEG開發(fā)的第 2個標準。按計劃于 1994年 l1月正式確定為國際標準,MPEG-2是"活動圖像及有關聲音信息的通用編碼"(Generic Coding of Moving Pictures Associated Audio Information)標準。MPEG-2標準制定始于 1990年7月。在此之間,國際電信盟電信標準化部門(ITU-T)成立了一個有關 ATM的圖像編碼專家組。從此開始了JTC1 ITU-T的合作。從1991年5月開始征集有關圖像編碼算法(Video Coding Algorithms)的文件,有32個公司和組織提供了非常詳細的研究結果和 D1格式的編解碼圖像錄像帶。 1991年l l月,在日本的 JVC研究所進行了對比測試,確定帶有運動補償預測和內插的DCT最成熟和性能最好。在1992年 1月的會上又定下了 MPEG-2是"通用"(generic)標準。MPEG-2的聲音和系統(tǒng)部分的工作始于1 992年7月。MPEG為制定 MPEG-2經常與有關國際組織,如ISO、IEC、ITU-T、ITU-R等開會協調,并注意到了與 MPEG-1的兼容一致。國際電聯的無線電通信部門(ITU-R)從廣播電視方面提出的不同需求構成了 MPEG-2的檔次/等級(Profile/Level)概念的基礎。ITU-R在 MPEG-2的質量檢驗、測試方面做了大量工作。MPEG-2的委員會草案ISO/IEC CD 13818是 1993年 l1月產生的。按計劃在 1994年1 l 月 7日至 l 1日的新加坡會議上,批準為國際標準ISO/IEC IS 13818。此后還要對 MPEG-2進行擴展。
6、MPEG-4標準
MPEG-4標準將支持 7個新的功能??纱致詣澐譃?3類:基于內容的交互性、高壓縮率和靈活多樣的存取模式。現分別介紹如下:
1. 基于內容的交互性(Content-based interactivity)
(1)基于內容的操作與比特流編輯支持無須編碼就可進行基于內容的操作與比特流編輯。例如:使用者可在圖像或比特流中選擇一具體的對象(Object)(例如圖像中的某個人,某個建筑等等),隨后改變它的某些特性。
(2)自然與合成數據混合編碼 提供將自然視頻圖像同合成數據(文本、圖形)有效結合的方式,同時支持交互性操作。
(3)增強的時間域隨機存取 MPEG-4將提供有效的隨機存取方式:在有限的時間間隔內,可按幀或任意形狀的對象,對一音、視頻序列進行隨機存取。例如以一序列中的某個音、視頻對象為目標進行"快進"搜索。
2. 高壓縮率(Compression)
(l)提高編碼效率 在與現有的或正在形成的標準的可比擬速率上, MPEG-4標準將提供更好的主觀視覺質量的圖像。這一功能可望在迅速發(fā)展中的移動通信網中獲得應用,但值得注意的是:提高編碼效率不是MPEG-4 的唯一的主要目際。
(2)對多個并發(fā)數據流的編碼 MPEG-4將提供對一景物的有效多視角編碼, 加上多伴音聲道編碼及有效的視聽同步。在立體視頻應用方面, MPEG-4將利用對同一景物的多視點觀察所造成的信息冗余, MPEG-4的這一功能在足夠的觀察視點條件下將有效地描述三維自然景物。
3. 靈活多樣的存取 (Universal access)
(l)錯誤易發(fā)環(huán)境中的抗錯性( Robustness) "靈活多樣"是指允許采用各種有線、線網和各種存儲媒體,MPEG-4將提高抗錯誤能力(Error robustness capability),尤其是在易發(fā)生嚴重錯誤的環(huán)境下的低比特應用中(移動通信鏈路)。注意, MPEG- 4是第一個在其音、視頻表示規(guī)范中考慮信道特性的標準。目的不是取代已由通信網提供的錯誤控制技術,而是提供一種對抗殘留錯誤的堅韌性。例如:選擇性前向糾錯 ( Selective forward error correction),錯誤遏制(Error containment), 或錯誤掩蓋(Error concealment)。
(2)基于內容的尺度可變性(Content-based scalability) 內容尺度可變性意味著給圖像中的各個對象分配優(yōu)先級。其中,比較重要的對象用較高的空間和或時間分辨率表示?;趦热莸某叨瓤勺冃允?MPEG-4的核心,因為一旦圖像中所含對象的目錄及相應的優(yōu)先級確定后,其它的基于內容的功能就比較容易實現了。對甚低比特率應用來說,尺度可變性是一個關鍵的因素, 因為它提供了自適應可用資源的能力。例如,這個功能允許使用者規(guī)定:對具有最高優(yōu)先級的對象以可接受的質量顯示,第二優(yōu)先級的對象則以較低的質量顯示,而其余內容(對象)則不予顯示,可見,這種方式可最有效地利用有限的資源。
7、 MPEG-7標準
MPEG家族的新成員叫作"多媒體內容描述接口"(簡稱MPEG-7, 它的由來是1+2+4=7, 因為沒有MPEG-3、MPEG-5、MPEG-6),它將擴展現有內容識別專用解決方案的有限的能力,特別是它還包括了更多的數據類型。換言之, MPEG- 7將規(guī)定一個用于描述各種不同類型多媒體信息的描述符的標準集合。 MPEG-7還將對定義其它描述符及其結構(描述方案),和他們之間的關系的方法進行標準化。這種描述(也就是描述符和描述方案的組合)將與內容本身關聯起來,以便對用戶感興趣的素材進行快速高效的搜索。 MPEG-7將標準化一種用來定義描述方案的語言,即描述定義語言(DDL)。帶有與之相關的 MPEG-7數據的 AV素材,就可以被加上索引,并可進行檢索。這些素材可能包括,靜止圖像、圖形、3D模型、音頻、語言、視頻、以及關于這些成份如何組成一個多媒體表述(即所謂"環(huán)境",組合信息)的信息。在這些通用數據類型中的特殊情況可能已包括面部表情和個人特征。
MPEG- 7象 MPEG家族中的其它成員一樣,是針對滿足特定需要的音、視頻信息的標準化表述。由于 MPEG-7是在其它標準表述諸如模擬、 PCM、 MPEG-l、MPEG-2和MPEG- 4等基礎上建立起來的,而標準化的功能之一就是對其中相應部分提供參考。舉例來說,也許一個用于MPEG-4的形狀描述符,在 MPEG-7的環(huán)境里可能會有幫助,同樣的,用于 MFEG-l、MPEG-2的運動矢量區(qū)也可能有這樣的情況。
但是, MPEG-7的描述符并不依賴于它所描述的內容是編碼的或存儲的方式,可以把MPEG-7的描述說明,附加到模擬制的電影里或是用紙張打印出來的圖片上。然而,盡管MPEG-7的描述不依賴于所處理素材的(編碼)表達方式,但由于在一定程度上它是在 MPEG-4的基礎上發(fā)展起來的,而 MPEG-4采用了按照具有一定時間關系(同步)和空間關系(對于視頻而言是在屏幕上,對于音頻而言是在房間內)的對象,來進行音、視頻編碼的處理方式,因此用 MPEG-4編碼有可能把描述說明附加到場景中的成員(對象),比如說音、視頻對象身上。所以,MPEG-7在描述中要提供不同的程度,才可能實現不同等級的識別。
因為描述性特征必須在應用環(huán)境中才有意義,所以他們會因用戶范圍的不同和應用領域的不同而有所區(qū)別。這就意昧著,同樣的素材,因為要和應用范圍相匹配,可能會使用不同類型的特征來描述。我們來看一些例子,對于可視素材,較低的抽象級別可能會用一些象形狀、尺寸、紋理、顏色、運動(拋射)、位置("對象會在場景中的哪個位置被發(fā)現呢?")等屬性來描述;對音頻內容而言,可能會采用調式、情緒、節(jié)奏、節(jié)奏變化、在聲場中的位置等屬性。而最高的抽象等級可能會給出關于語意的信息:"在這個場景中,左側有一只正在吠叫的棕狗,右側有一只落下來的藍色圓球,背景中還有汽車經過的聲音。"當然,所有這些描述都會以高效方式進行編碼,也即能提高搜索的效率。同時,中間也可能存在過渡的抽象等級。抽象等級與提取特征的方式有關,許多低等級的特征可以用全自動的方式提取出來,而高等級的特征就需要更多的人工交互。