一 基礎(chǔ)篇
1.1 圖形、圖像和視頻
圖形(graphic):和圖像與視頻不同,有一種說(shuō)法是圖形就是自然界的客觀世界不存在的圖案。對(duì)于計(jì)算機(jī)中的圖形研究,有專(zhuān)門(mén)的計(jì)算機(jī)圖形學(xué),主要的研究對(duì)象是點(diǎn)、線、面等抽象事物。目前所謂的計(jì)算機(jī)顯卡3D技術(shù)支持,主要就是圖形技術(shù)相關(guān)的范疇。關(guān)于圖形方面的開(kāi)發(fā),好象OpenGL是其中比較有名的3D圖形庫(kù)。
圖像(image):和圖形相反,圖像可以定位為自然界中客觀存在的圖案。圖像處理和我們有關(guān)系的大致是圖像濾波處理和圖像壓縮。目前用得最多的靜止圖像壓縮算法就是jpeg了,大家應(yīng)該都很熟悉。而對(duì)圖像的其他處理,一般稱(chēng)之為對(duì)圖像進(jìn)行濾波,圖像處理方面,photoshop軟件很多人應(yīng)該都很熟悉,它圖像處理的功能十分強(qiáng)大。在視頻行業(yè),主要是關(guān)注消隔行濾波器、去除攝像頭白噪聲濾波器、去除塊效應(yīng)(deblock)濾波器等。
視頻(video):視頻我的理解就是連續(xù)的圖像,被稱(chēng)為視頻。對(duì)視頻圖像的處理,核心是壓縮,其他的就是采集、傳輸、顯示和錄像了。視頻圖像如果不壓縮的話,傳輸和錄像的成本都太高了。
1.2 視頻的采集、壓縮、傳輸、解碼顯示和存儲(chǔ)
視頻采集最重要的設(shè)備就是攝像頭了,它將自然界中的客觀場(chǎng)景轉(zhuǎn)化為模擬的電信號(hào)輸出。如果是數(shù)字視頻應(yīng)用系統(tǒng),還需要專(zhuān)門(mén)的設(shè)備或者器件完成圖像信號(hào)的模擬到數(shù)字轉(zhuǎn)換,這也是攝像頭很難直接接入PC機(jī)的原因。早期的接入方式是通過(guò)PC上用戶自己配的采集卡來(lái)完成,這種方式現(xiàn)在也有,現(xiàn)在有專(zhuān)門(mén)通過(guò)USB接口接入PC機(jī)的USB攝像頭,它是在攝像頭內(nèi)完成了模擬到數(shù)字的轉(zhuǎn)換,輸出數(shù)字信號(hào)到USB接口。
視頻的壓縮是視頻處理的核心,按照是否實(shí)時(shí)性可以分為非實(shí)時(shí)壓縮和實(shí)時(shí)壓縮。實(shí)時(shí)性與否,區(qū)別其實(shí)很大,一般來(lái)說(shuō),制作DVD等影片可以算作非實(shí)時(shí)性壓縮,此時(shí),算法的選擇應(yīng)該是要提高壓縮算法效率,而不是性能,因?yàn)?,即使一天完成一部影片的壓縮的話,大多數(shù)時(shí)候,問(wèn)題可能也不大。而對(duì)于類(lèi)似網(wǎng)上直播這樣的應(yīng)用,則屬于實(shí)時(shí)性壓縮應(yīng)用了,此時(shí)在算法選擇上,算法的性能可能是第一位的。目前看,實(shí)時(shí)性壓縮的應(yīng)用更廣泛些。關(guān)于視頻壓縮部分,詳細(xì)的介紹我們放在后面的章節(jié)進(jìn)行介紹。
視頻的傳輸分為兩種,一種是模擬視頻的傳輸,也就是攝像頭電信號(hào)進(jìn)行遠(yuǎn)距離傳輸,這種主要是在傳統(tǒng)的視頻監(jiān)控系統(tǒng)中應(yīng)用,它的成本比較高,傳輸距離也有限制,而且隨著距離的增大,會(huì)出現(xiàn)信號(hào)衰減和信道噪聲等問(wèn)題;另一種傳輸是和互聯(lián)網(wǎng)技術(shù)結(jié)合起來(lái),先把數(shù)字視頻信號(hào)壓縮后得到碼流數(shù)據(jù),然后通過(guò)網(wǎng)絡(luò)傳輸?shù)竭h(yuǎn)端。隨著互聯(lián)網(wǎng)的高速發(fā)展,后一種應(yīng)用方式越來(lái)越普遍,最早期應(yīng)該算是視頻會(huì)議系統(tǒng),現(xiàn)在的應(yīng)用就更多了,最新的比如手機(jī)上網(wǎng)觀看視頻等。其實(shí),抽象看,互聯(lián)網(wǎng)它其實(shí)就是一個(gè)信息平臺(tái),而在這個(gè)信息平臺(tái)上,傳輸?shù)男畔⑾喈?dāng)大比例就是多媒體數(shù)據(jù)??梢韵胂?,今后隨著互聯(lián)網(wǎng)帶寬的不斷提高,視頻的應(yīng)用將越來(lái)越廣。
對(duì)于互聯(lián)網(wǎng)傳輸過(guò)來(lái)的視頻信息,首先是要進(jìn)行解碼,然后才是顯示。解碼的芯片有一定的性能要求,比編碼器低些,但是畢竟是視頻數(shù)據(jù)處理,通用的芯片(不支持MMX等多媒體指令)可能會(huì)比較吃力。顯示設(shè)備主要有電視、監(jiān)視器和顯示器,他們的信號(hào)接口是不一樣的,電視監(jiān)視器是模擬的電信號(hào),顯示器的輸入應(yīng)該是數(shù)字信號(hào)。另外多說(shuō)一句,現(xiàn)在的顯卡似乎普遍支持電視輸出。
1.3 視頻相關(guān)行業(yè)介紹
以視頻技術(shù)為基礎(chǔ),結(jié)合其他領(lǐng)域的技術(shù)突破,滿足了人們各種各樣的需求,形成了很多視頻相關(guān)的行業(yè)。這些行業(yè)之中,我們來(lái)了解一下如下四個(gè)方向。
1.3.1 多媒體消費(fèi)類(lèi)應(yīng)用
多媒體消費(fèi)類(lèi)應(yīng)用在技術(shù)上主要是視頻壓縮技術(shù)和媒體存儲(chǔ)技術(shù)的結(jié)合,主要的產(chǎn)品形式是VCD(早期)和DVD,偏向消費(fèi)類(lèi)的家庭應(yīng)用。這幾年隨著DVD光驅(qū)的普及,在PC上觀看DVD也逐步流行起來(lái)。該行業(yè)的視頻壓縮屬于非實(shí)時(shí)壓縮,追求的是高清晰度,一般的分辨率都是D1(720*576),而且,它的音頻品質(zhì)也要求很高,采樣頻率和采樣精度都非常高。DVD的視頻壓縮算法是mpeg-2,而它的音頻是LPCM、DOLBYAC3、mp3或者aac。
DVD的存儲(chǔ)技術(shù)表現(xiàn)形態(tài)就是DVD光盤(pán),目前市面上常用的DVD光盤(pán)最大容量可達(dá)4.7GB。目前DVD技術(shù)最發(fā)達(dá)的是日本,他們的專(zhuān)利最多,技術(shù)也最領(lǐng)先,基本上處于壟斷地位了。
中國(guó)也有自己的DVD標(biāo)準(zhǔn),叫做EVD,這個(gè)公司很久前就在努力的推廣他們的標(biāo)準(zhǔn)了,不過(guò)客觀的評(píng)價(jià),進(jìn)展不能算很樂(lè)觀,還需要努力。
多媒體技術(shù)在家庭中的應(yīng)用,這幾年也出現(xiàn)了一些很好的亮點(diǎn),比如家用電視支持網(wǎng)絡(luò)和媒體功能、電視支持錄像功能等,不過(guò)總體評(píng)價(jià),這些都還遠(yuǎn)遠(yuǎn)沒(méi)有普及,還需要進(jìn)一步發(fā)展。個(gè)人更看好以機(jī)頂盒這樣的方式來(lái)滿足多媒體需求。
1.3.2 視頻會(huì)議
視頻會(huì)議可以說(shuō)是視頻技術(shù)應(yīng)用最古老的行業(yè)了,之所以這么說(shuō),是因?yàn)榈谝粋€(gè)視頻壓縮標(biāo)準(zhǔn)H.261就是為了視頻會(huì)議而制定的。
視頻會(huì)議行業(yè)是實(shí)時(shí)音視頻壓縮技術(shù)和網(wǎng)絡(luò)通信技術(shù)結(jié)合的產(chǎn)物。目前視頻會(huì)議系統(tǒng)的發(fā)展,除了滿足人們基本的語(yǔ)音和圖像信息交流外,還包括了強(qiáng)大的數(shù)據(jù)信息共享、開(kāi)展協(xié)同工作等功能。
視頻會(huì)議系統(tǒng)主要包括的產(chǎn)品有:語(yǔ)音輸入輸出設(shè)備(mic、音箱等)、攝像頭、電視、視頻會(huì)議終端、MCU等。視頻會(huì)議專(zhuān)用的攝像頭日本索尼公司市場(chǎng)占有率無(wú)可爭(zhēng)議的是第一。而視頻會(huì)議終端和MCU市場(chǎng)目前排第一的是美國(guó)的polycom公司,polycom的音頻技術(shù)非常強(qiáng)大,它在中低端市場(chǎng)優(yōu)勢(shì)很明顯,而挪威的泰德(tandberg)在高端市場(chǎng)則做得更好一些。視頻會(huì)議系統(tǒng)對(duì)音視頻技術(shù)和網(wǎng)絡(luò)技術(shù)要求都比較高。從實(shí)際應(yīng)用來(lái)說(shuō),相對(duì)視頻,視頻會(huì)議系統(tǒng)對(duì)音頻要求更高一些。隨著現(xiàn)在視頻技術(shù)的發(fā)展和網(wǎng)絡(luò)帶寬的不斷改善,人們對(duì)視頻的要求也越來(lái)越高,不過(guò),音頻方面的處理始終是關(guān)鍵,比如回聲消除技術(shù)等。
1.3.3 視頻監(jiān)控
根據(jù)目前比較流行的劃分方法,視頻監(jiān)控行業(yè)已歷經(jīng)三代。第一代被稱(chēng)為CCTV監(jiān)控,也就是一個(gè)攝像頭加一個(gè)監(jiān)視器組成一個(gè)最簡(jiǎn)單的視頻監(jiān)控系統(tǒng),很多時(shí)候還只是黑白的監(jiān)控畫(huà)面,目前采用第一代監(jiān)控系統(tǒng)的客戶已經(jīng)很少了,不過(guò)在一些很小的便利店、超市,我們還是可以看到這樣的監(jiān)控系統(tǒng)。第二代視頻監(jiān)控系統(tǒng)典型的產(chǎn)品形態(tài)是板卡和DVR,即使到現(xiàn)在,這種監(jiān)控系統(tǒng)也還很流行,在第二代監(jiān)控系統(tǒng)中表現(xiàn)最好的企業(yè)是杭州海康,他們幾乎壟斷了板卡市場(chǎng),DVR市場(chǎng)占有率也連續(xù)幾年排名第一了,第二代監(jiān)控系統(tǒng)核心是實(shí)時(shí)視頻壓縮技術(shù),把攝像頭拍攝下來(lái)的畫(huà)面進(jìn)行壓縮和存儲(chǔ)到本地硬盤(pán)。目前,視頻監(jiān)控行業(yè)已經(jīng)發(fā)展到了第三代,也就是遠(yuǎn)程視頻監(jiān)控,它把網(wǎng)絡(luò)技術(shù)和視頻壓縮技術(shù)結(jié)合起來(lái),不過(guò)和視頻會(huì)議系統(tǒng)不同的是,監(jiān)控行業(yè)對(duì)音頻的要求不高,但是,對(duì)圖像的要求卻高很多,從傳統(tǒng)的要求來(lái)說(shuō),視頻監(jiān)控不僅要求圖像能夠更清晰,對(duì)幀率的要求也很高,這也是從監(jiān)控的安全考慮的需求。
遠(yuǎn)程監(jiān)控系統(tǒng)的主要產(chǎn)品是視頻服務(wù)器(IPVS,也有產(chǎn)商叫DVS)和網(wǎng)絡(luò)攝像機(jī)(ip camera),這兩種產(chǎn)品都具備實(shí)時(shí)壓縮和網(wǎng)絡(luò)傳輸?shù)墓δ埽δ苌系膮^(qū)別是IP camera自帶攝像頭,而IPVS需要用戶自己配攝像頭,當(dāng)然,IPVS在滿足監(jiān)控市場(chǎng)的需求上,比IP camera更強(qiáng)大一些,一般來(lái)說(shuō),圖像的壓縮效果也更好些,而且,它一般還支持所謂的報(bào)警輸入輸出接口,當(dāng)然,在價(jià)格上,網(wǎng)絡(luò)攝像機(jī)有比較大的優(yōu)勢(shì)。
1.3.4 流媒體行業(yè)
流媒體也是網(wǎng)絡(luò)技術(shù)和視頻壓縮技術(shù)結(jié)合的產(chǎn)物,它的具體應(yīng)用形式很多,比如網(wǎng)上直播、手機(jī)流媒體、IPTV(網(wǎng)絡(luò)電視)等等,都是比較新的東西,再比如現(xiàn)在網(wǎng)絡(luò)上流行的所謂播客,我也把它歸類(lèi)為流媒體行業(yè)。
流媒體應(yīng)用,對(duì)編碼器的要求可能是最高的了,這是因?yàn)槊颗_(tái)流媒體服務(wù)器都會(huì)有很多用戶來(lái)連接訪問(wèn)媒體數(shù)據(jù),壓縮率如果提高的話,同等圖像質(zhì)量下,同等圖像帶寬可以支持更多的用戶,這點(diǎn)很重要,流媒體行業(yè)應(yīng)用的最大瓶頸就是服務(wù)器支持的用戶數(shù)了。
為了解決服務(wù)器的這一瓶頸,最近幾年出現(xiàn)了一種叫做P2P的網(wǎng)絡(luò)傳輸技術(shù),它號(hào)稱(chēng)是用戶越多,用戶欣賞視頻會(huì)越流暢,而需要的服務(wù)器仍然只是一臺(tái)。這個(gè)技術(shù)最成功的產(chǎn)品案例就是skype軟件了,好像是2005年它被ebay以26億美元成功收購(gòu),這即使到現(xiàn)在,也被稱(chēng)為一個(gè)互聯(lián)網(wǎng)歷史上不可復(fù)制的奇跡。除了skype,其他應(yīng)用P2P技術(shù)的直播軟件還有pplive等,現(xiàn)在也都比較流行。
IPTV算是流媒體在家庭的一個(gè)應(yīng)用形式,前兩年在國(guó)內(nèi)也很火過(guò)一陣子。我的感覺(jué),單純從技術(shù)上評(píng)價(jià),IPTV也還有點(diǎn)早了,現(xiàn)在可能還不太成熟,我的理由有如下幾點(diǎn):目前家庭用戶上網(wǎng)主要的帶寬還是2兆或者以下,在這個(gè)帶寬下,目前主流的壓縮技術(shù),壓縮出來(lái)的效果可能和有線電視比還相差很明顯,要想進(jìn)一步提高,可能還需要H.264的普及應(yīng)用。如果要升級(jí)到H.264的話,也就是說(shuō)目前的IPTV機(jī)頂盒在技術(shù)上還不夠成熟,并不能一步到位解決問(wèn)題。所以,感覺(jué)IPTV在技術(shù)上要可行,可能還需要再等3-5年吧。
1.3.5 視訊行業(yè)
所謂的視訊行業(yè),就是視頻和通訊技術(shù)結(jié)合的行業(yè),上面所說(shuō)的視頻會(huì)議、遠(yuǎn)程視頻監(jiān)控和流媒體行業(yè)都屬于視訊行業(yè)的范疇。
還有一個(gè)很有影響的產(chǎn)品,就是IP電話,這個(gè)產(chǎn)品大家應(yīng)該都很熟悉了,幾年前也有過(guò)一段時(shí)間的炒作,現(xiàn)在看好像也還沒(méi)普及,和IPTV類(lèi)似,個(gè)人也是感覺(jué)還是有點(diǎn)早了,可能再過(guò)幾年會(huì)有機(jī)會(huì)起來(lái)。它應(yīng)該算是視頻會(huì)議的家庭應(yīng)用產(chǎn)品形態(tài)吧。
二 知識(shí)篇
2.1 音視頻協(xié)議、通訊協(xié)議介紹
2.1.1 兩大標(biāo)準(zhǔn)制定組織
這里的標(biāo)準(zhǔn),主要指的是音視頻壓縮標(biāo)準(zhǔn)。兩大組織分別是國(guó)際標(biāo)準(zhǔn)化組織(ISO)和國(guó)際電信聯(lián)盟(ITU),相信IT行業(yè)的從業(yè)者沒(méi)聽(tīng)說(shuō)過(guò)這兩個(gè)行業(yè)的人很少。
在音視頻壓縮標(biāo)準(zhǔn)方面,mpeg系列的協(xié)議是ISO制定的標(biāo)準(zhǔn),而H系列的協(xié)議則是ITU制定的標(biāo)準(zhǔn)。
2.1.2 視頻協(xié)議
目前主要的視頻壓縮協(xié)議有:H.261、H.263、H.264和mpeg-1、mpeg-2和mpeg-4。第一個(gè)視頻壓縮標(biāo)準(zhǔn)是H.261,它的算法現(xiàn)在來(lái)看,非常簡(jiǎn)單,但是,它的很多視頻壓縮的思想,一直影響到現(xiàn)在最新的壓縮標(biāo)準(zhǔn)H.264。H.264單看名字,感覺(jué)是ITU組織制定的,其實(shí)它還有一個(gè)名字叫mpeg-4 Part 10,翻譯過(guò)來(lái)叫mpeg-4 第十部分,這是因?yàn)镠.264是ISO和ITU組織共同制定的,版權(quán)共享。其實(shí),一直以來(lái),H系列的標(biāo)準(zhǔn)制定者和mpeg系列的標(biāo)準(zhǔn)制定者基本上就是同一群人,而且,這兩個(gè)系列的算法思想基本上都差不多,唯一有一點(diǎn)不同的協(xié)議是mpeg-4,它在它的高級(jí)profile中提出了小波變換等算法來(lái)實(shí)現(xiàn)視頻壓縮,從實(shí)際發(fā)展看,個(gè)人感覺(jué)不是很成功,采用小波變換的商用codec很少,這可能和這些算法的達(dá)不到實(shí)時(shí)性有關(guān)系。
從應(yīng)用的角度看,mpeg系列在消費(fèi)類(lèi)應(yīng)用更廣些,大家也更熟悉些,我們熟悉的VCD格式視頻主要是mpeg-1,DVD的視頻則是mpeg-2,早期大家看的電影在電腦上存盤(pán)文件格式都是*.mpg,基本上也都是mpeg做的壓縮了。在行業(yè)上,國(guó)內(nèi)的監(jiān)控行業(yè),也是從mpeg-1到mpeg-2,到前兩三年的mpeg-4,再到最近的H.264。而H系列的標(biāo)準(zhǔn),用得最多的是視頻會(huì)議,從H.261到H.263,再到H.263+、H.263++等,再到現(xiàn)在的H.264。
從技術(shù)角度說(shuō),H系列的協(xié)議對(duì)網(wǎng)絡(luò)的支持更好些,這點(diǎn)mpeg系列要差一些,但是,mpeg它每一代都比H系列同一代的協(xié)議要出得晚些,算法也相對(duì)更先進(jìn)些,因此,它用來(lái)做存儲(chǔ)協(xié)議是很合適的,這也就是為什么普通消費(fèi)類(lèi)產(chǎn)品用戶很少了解到H系列協(xié)議的原因。
H.264是兩大組織最新的算法成果,它在算法層面應(yīng)該說(shuō)是非常先進(jìn)了,有人評(píng)價(jià),H.264是視頻壓縮技術(shù)的一個(gè)里程碑,在可預(yù)見(jiàn)的5到10年內(nèi),出現(xiàn)新的視頻壓縮協(xié)議可能性很小,除非壓縮理論有重大突破。
中國(guó)也有自己的視頻壓縮協(xié)議,叫做AVS,搞了好多年了,不過(guò)搞得不是很好。從市場(chǎng)分析,消費(fèi)類(lèi)電子、視頻會(huì)議和流媒體行業(yè),現(xiàn)在要再想進(jìn)去可能很困難了。不過(guò)最近聽(tīng)說(shuō)AVS又有點(diǎn)火起來(lái)了,有消息稱(chēng),IPTV指定要支持AVS,這可能是它的最后機(jī)會(huì)了吧。
除了上面說(shuō)的協(xié)議,還有很多公司也有自己的壓縮算法,不過(guò)基本上都是不公開(kāi)的了,他們這些算法也都非常好,不過(guò)和開(kāi)發(fā)人員關(guān)系倒不是很大了,典型的是微軟的wmv、realplay公司的rm和rmvb等,他們的使用者也很多,而且他們都偏向流媒體應(yīng)用。
2.1.3 音頻協(xié)議
音頻協(xié)議也分兩大類(lèi),ITU組織的主要是用于視頻會(huì)議的G系列協(xié)議,包括g.711、g.722、g.723、g.726、g.728、g.729等。這些協(xié)議主要有兩大特點(diǎn),第一是比較關(guān)注語(yǔ)音壓縮,畢竟開(kāi)會(huì)主要是要聽(tīng)人講話;對(duì)音樂(lè)的壓縮效果可能就不是太好了;第二是壓縮率都比較大,碼率都比較低,典型的g.723支持5.9k/s這樣的碼率,而且語(yǔ)音音質(zhì)還很不錯(cuò)。ISO的音頻可能更為人熟知一些,最流行的就是mp3,它的全稱(chēng)是mpeg-1 Audio layer 3,意思是mpeg-1的音頻第三層;另外,最新的音頻算法被稱(chēng)為aac(也稱(chēng)為mp4),它定義在mpeg-2或mpeg-4的音頻部分。他們的特點(diǎn)是音質(zhì)好,支持多聲道,高采樣精度和采樣頻率,尤其對(duì)音樂(lè)的壓縮效果比G系列要好太多。當(dāng)然,這也是因?yàn)樗鼈兊膽?yīng)用領(lǐng)域側(cè)重點(diǎn)不同造成的。
同樣的,很多大公司也有自己的語(yǔ)音壓縮標(biāo)準(zhǔn),效果也非常好。不過(guò)都是他們自己的知識(shí)產(chǎn)權(quán)和算法,通用市場(chǎng)用的還是少。
2.1.4 上層通訊協(xié)議
在視頻會(huì)議系統(tǒng)中,目前最流行的有H.323和SIP協(xié)議,在流媒體應(yīng)用中,ISMA rtsp應(yīng)用得比較多,它屬于開(kāi)源項(xiàng)目,而很多流媒體產(chǎn)商有自己的流媒體傳輸協(xié)議,比如微軟的mms等。
H.323主要用于視頻會(huì)議,被稱(chēng)為協(xié)議簇,我們前面提到的H系列視頻壓縮協(xié)議和G系列音頻壓縮協(xié)議都屬于它的子協(xié)議。除了音視頻編解碼器外;它還定義了各種數(shù)據(jù)應(yīng)用,包括T.120、T.84、T.434等;另外還包括H.245控制信道、H.225.0呼叫信令信道以及RAS信道。詳細(xì)的H.323的知識(shí),這里就不深入介紹了。
SIP是由IETF提出來(lái)的一個(gè)應(yīng)用控制(信令)協(xié)議。正如名字所隱含的--用于發(fā)起會(huì)話。它可用來(lái)創(chuàng)建、修改以及終結(jié)多個(gè)參與者參加的多媒體會(huì)話進(jìn)程。參與會(huì)話的成員可以通過(guò)組播方式、單播連網(wǎng)或者兩者結(jié)合的形式進(jìn)行通信。
H.323和SIP分別是通信領(lǐng)域與因特網(wǎng)兩大陣營(yíng)推出的建議。 H.323企圖把IP電話當(dāng)作是眾所周知的傳統(tǒng)電話,只是傳輸方式發(fā)生了改變,由電路交換變成了分組交換。而SIP協(xié)議側(cè)重于將IP電話作為因特網(wǎng)上的一個(gè)應(yīng)用,較其實(shí)應(yīng)用(如FTP,E-mail等)增加了信令和QoS的要求,它們支持的業(yè)務(wù)基本相同,也都利用RTP作為媒體傳輸?shù)膮f(xié)議。但H.323是一個(gè)相對(duì)復(fù)雜的協(xié)議。
RTSP主要用于流媒體傳輸,它的英文全稱(chēng)是real time streaming protocol。典型的應(yīng)用就是網(wǎng)絡(luò)電視的應(yīng)用,由客戶向服務(wù)器進(jìn)行點(diǎn)播,如果在監(jiān)控行業(yè)應(yīng)用的話,建議當(dāng)用戶進(jìn)行遠(yuǎn)程回放錄像時(shí),可采用RTSP協(xié)議。
2.2 音視頻基本概念介紹
2.2.1 視頻的基本概念
RGB和YUV
RGB指的是紅綠藍(lán),應(yīng)用還是很廣泛的,比如顯示器顯示,BMP文件格式中的像素值等;而YUV主要指亮度和兩個(gè)色差信號(hào),被稱(chēng)為luminance和chrominance他們的轉(zhuǎn)化關(guān)系可以自己去查一下,我們視頻里面基本上都是用YUV格式。
YUV格式
YUV文件格式又分很多種,如果算上存儲(chǔ)格式,就更多了,比如YUV444、YUV422、YUV411、YUV420等等,視頻壓縮用到的是420格式,這是因?yàn)槿搜蹖?duì)亮度更敏感些,對(duì)色度相對(duì)要差些。另外要注意幾個(gè)英文單詞的意思,比如:packet、planar、interlace、progressive等。
幀率
每秒鐘圖像的刷新速度。PAL制式的電視,幀率是25幀每秒,NTSC制式的電視幀率是29.97幀每秒。我們常用的電腦也有刷新率,一般來(lái)說(shuō),電腦的刷新率要在75赫茲以上,人眼才不會(huì)覺(jué)得閃。
隔行掃描(interlace)和逐行掃描(progressive)
一般的電視上都是隔行掃描,而顯示器都是逐行掃描。這里有一個(gè)場(chǎng)的概念,隔行掃描是一幀等于兩場(chǎng),而逐行掃描則是一幀就是一場(chǎng)。
碼率
它的單位是 bit per second,一般所有描述帶寬的概念,單位都是bit,描述存儲(chǔ)容量的單位一般都是大B,也就是BYTE(字節(jié))。
分辨率
圖像的分辨率指的是它的像素?cái)?shù),一般用得最多的是CIF,也就是352*288,4cif自然就是指704*576,而D1的分辨率嚴(yán)格意義上是720*576,大小來(lái)說(shuō)和4cif差不多了。當(dāng)然現(xiàn)在還有很多高清的分辨率,這些我不是太了解,大家感興趣可以查一下。另外,國(guó)外很多時(shí)候,對(duì)cif的高度取240,這是因?yàn)樗麄兊膸时任覀兏撸?9.97hz),自然,高度要小一些了。
實(shí)時(shí)與非實(shí)時(shí)
主要用來(lái)形容編碼器,它含有兩個(gè)意思,一個(gè)是要保證幀率,也就是每秒25幀,另一個(gè)是“live”的意思,意味著直播,所謂的“實(shí)況轉(zhuǎn)播”的“實(shí)”。
延時(shí)
也是形容編碼器的一個(gè)重要指標(biāo),一般來(lái)說(shuō),200ms到300ms人的感覺(jué)不會(huì)很明顯,到了500毫秒的話,還是可以很明顯感覺(jué)到的。
音視頻同步
作為視頻會(huì)議的應(yīng)用,一般要求做到所謂的“唇同步”。基本的保證音視頻同步的手段就是時(shí)間戳(time stamp)。
復(fù)合視頻和S-Video
NTSC和PAL彩色視頻信號(hào)是這樣構(gòu)成的--首先有一個(gè)基本的黑白視頻信號(hào),然后在每個(gè)水平同步脈沖之后,加入一個(gè)顏色脈沖和一個(gè)亮度信號(hào)。因?yàn)椴噬盘?hào)是由多種數(shù)據(jù)“疊加”起來(lái)的,故稱(chēng)之為“復(fù)合視頻”。S-Video則是一種信號(hào)質(zhì)量更高的視頻接口,它取消了信號(hào)疊加的方法,可有效避免一些無(wú)謂的質(zhì)量損失。它的 功能是將RGB三原色和亮度進(jìn)行分離處理。
NTSC、PAL和SECAM
基帶視頻是一種簡(jiǎn)單的模擬信號(hào),由視頻模擬數(shù)據(jù)和視頻同步數(shù)據(jù)構(gòu)成,用于接收端正確地顯示圖像。信號(hào)的細(xì)節(jié)取決于應(yīng)用的視頻標(biāo)準(zhǔn)或者“制式”--NTSC(美國(guó)全國(guó)電視標(biāo)準(zhǔn)委員會(huì),National Television Standards Committee)、PAL(逐行倒相,Phase Alternate Line)以及SECAM(順序傳送與存儲(chǔ)彩色電視系統(tǒng),法國(guó)采用的一種電視制式,SEquential Couleur Avec Memoire)。
中國(guó)的電視信號(hào)一般都是PAL,而美日則是NTSC。這2個(gè)制式的幀率,圖像尺寸都有所不同。
線數(shù)
我們?cè)谫I(mǎi)攝像頭的時(shí)候,經(jīng)常會(huì)提到一個(gè)叫線數(shù)的概念,它其實(shí)就是分辨率中的高(height)。舉個(gè)例子:PAL制式的D1圖像,線數(shù)就是576。
亮度、飽和度和對(duì)比度
英文名分別是:brightness、saturation和 contrast。這是三個(gè)表示圖像的重要指標(biāo)。
2.2.2 音頻的基本概念
采樣率
音頻的采樣率其實(shí)類(lèi)似視頻的幀率,意思是每秒鐘采樣的次數(shù)。G.711的采樣率是8k(人的語(yǔ)音大概就在這個(gè)頻率范圍以?xún)?nèi)),而mp3支持的典型采樣率是 44.1kHz(超過(guò)人耳響應(yīng)頻率的2倍多一點(diǎn)——奈奎斯特定理)。很明顯,mp3壓縮的原始聲音要比g.711好多了。
采樣精度
就是每個(gè)采樣進(jìn)行模數(shù)轉(zhuǎn)換時(shí)的量化系數(shù)。G.711是8bit采樣精度,而mp3典型的是16bit。
回聲消除
視頻會(huì)議應(yīng)用中的音頻最大問(wèn)題?;芈暜a(chǎn)生的原因很復(fù)雜,一般認(rèn)為,在互聯(lián)網(wǎng)中的語(yǔ)音傳輸,延時(shí)來(lái)源有三個(gè):壓縮延遲、分組傳輸延遲和處理延遲。語(yǔ)音壓縮延遲是產(chǎn)生回聲的主要延遲,例如在G.723.1標(biāo)準(zhǔn)中,壓縮一幀(30ms)的最大延遲是37.5ms。分組傳輸延遲也是一個(gè)很重要的來(lái)源,測(cè)試表明,端到端的最大傳輸延遲可達(dá)250ms以上。處理延遲是指語(yǔ)音包的封裝時(shí)延及其緩沖時(shí)延等。
2.3 視訊產(chǎn)品簡(jiǎn)介
這一節(jié),我們對(duì)采取一些視訊行業(yè)中的產(chǎn)品進(jìn)行簡(jiǎn)單介紹,希望對(duì)大家有用。
2.3.1 MP4
這是最近兩年開(kāi)始流行的新產(chǎn)品,它的定義其實(shí)業(yè)有些混亂。目前流行的說(shuō)法是:只要和視頻沾邊的便攜式播放器,都叫MP4。不過(guò)下面的圖更能說(shuō)明問(wèn)題。
2.3.2 光端機(jī)
一種完成電——光信號(hào)轉(zhuǎn)換的設(shè)備。主要用于模擬遠(yuǎn)程視頻監(jiān)控系統(tǒng),它可將遠(yuǎn)端的攝像頭模擬信號(hào)轉(zhuǎn)換成光信號(hào)傳送到監(jiān)控中心,配合監(jiān)控中心的DVR使用。
2.3.3 視頻會(huì)議MCU
它是視頻會(huì)議的核心設(shè)備之一。當(dāng)參與視頻會(huì)議的終端超過(guò)2個(gè)時(shí),就必須通過(guò)MCU來(lái)召開(kāi)會(huì)議。
MCU的基本功能是媒體流轉(zhuǎn)發(fā)和混音,并進(jìn)行會(huì)議管理,隨著視頻會(huì)議的發(fā)展,MCU支持的功能也越來(lái)越多,比如:混屏、遠(yuǎn)程攝像頭控制等功能。
呵呵 不錯(cuò)。。。
再挑點(diǎn)毛病。。。
目前市面上常用的DVD光盤(pán)最大容量可達(dá)4.7GB
-----------------------------
這句有點(diǎn)模糊。。DVD分為四種規(guī)格:DVD-5,DVD-9,DVD-10,DVD-18,DVD-5,4.7GB;DVD-9,8.5GB;DVD-10,9.4GB;DVD-18,17GB。
在行業(yè)上,國(guó)內(nèi)的監(jiān)控行業(yè),也是從mpeg-1到mpeg-2,到前兩三年的mpeg-4,再到最近的H.264。
------------------------------------------
“前兩三年”好像容易給人造成誤解。。。。。MPEG-4,1993年就開(kāi)始制定了,1999年和2000年發(fā)布了1版和2版。
這里有一個(gè)場(chǎng)的概念,隔行掃描是一幀等于兩場(chǎng),而逐行掃描則是一幀就是一場(chǎng)。
-----------------------------------------
場(chǎng)的概念好像只是針對(duì)隔行掃描,不存在一幀就是一場(chǎng)這一說(shuō)吧。
亮度、飽和度和對(duì)比度
英文名分別是:brightness、saturation和 contrast。這是三個(gè)表示圖像的重要指標(biāo)。
----------------------------------------
再加一個(gè)吧,色度(Hue)。
視頻壓縮知識(shí)介紹(一)——評(píng)價(jià)標(biāo)準(zhǔn)及算法原理
1.1 視頻壓縮評(píng)價(jià)標(biāo)準(zhǔn)
評(píng)價(jià)視頻壓縮算法的壓縮效果,信噪比是一個(gè)非常有效的指標(biāo),它非常客觀。一般來(lái)說(shuō),同等碼率下,解碼后圖像與原始圖像的信噪比高的那個(gè)碼流,圖像效果更好些。
不過(guò),視頻壓縮的效果也不能只關(guān)注信噪比,它還需要考慮人眼的一些視覺(jué)特性,畢竟,人是通過(guò)眼睛在看圖象,而人眼不是僅僅在計(jì)算信噪比。對(duì)于視頻壓縮的這一特性,我取了個(gè)名字,叫做“騙眼睛”。關(guān)于視覺(jué)特性在編碼中的應(yīng)用,最現(xiàn)成的例子就是所謂的YUV420格式數(shù)據(jù)。從數(shù)據(jù)量來(lái)說(shuō),YUV420是YUV444的一半,但是,實(shí)際上人在看這兩組圖像的時(shí)候,視覺(jué)感受其實(shí)相差不大。究其原因,是因?yàn)槿搜蹖?duì)顏色不是太敏感,而對(duì)亮度卻很敏感。420和444數(shù)據(jù)在亮度上完全一下,而顏色數(shù)據(jù)相差卻很大,可是,人眼的感覺(jué)卻并不明顯。我們采用420的數(shù)據(jù)來(lái)存儲(chǔ)圖像數(shù)據(jù),僅此一項(xiàng),就節(jié)省了一半的存儲(chǔ)空間!
1.2 視頻壓縮算法原理
視頻壓縮是有損壓縮,一般說(shuō)來(lái),視頻壓縮的壓縮率都很高,能夠做到這么高的壓縮率是因?yàn)橐曨l圖像有著非常大的時(shí)間和空間的冗余度。所謂的時(shí)間冗余度指的是兩幀相鄰的圖像他們相同位置的像素值比較類(lèi)似,具有很大的相關(guān)性,尤其是靜止圖像,甚至兩幀圖像完全相同,對(duì)運(yùn)動(dòng)圖像,通過(guò)某種運(yùn)算(運(yùn)動(dòng)估計(jì)),應(yīng)該說(shuō)他們也具有很高的相關(guān)性;而空間相關(guān)性指的是同一幀圖像,相鄰的兩個(gè)像素也具備一定的相關(guān)性。這些相關(guān)性是視頻壓縮算法的初始假設(shè),換句話說(shuō),如果不滿足這兩個(gè)條件(全白噪聲圖像,場(chǎng)景頻繁切換圖像等),視頻壓縮的效果是會(huì)很差的。
去除時(shí)間相關(guān)性的關(guān)鍵算法是運(yùn)動(dòng)估計(jì),它找出當(dāng)前圖像宏塊在上一幀圖像中最匹配的位置,很多時(shí)候,我們只需要把這個(gè)相對(duì)坐標(biāo)記錄下來(lái),就夠了,這樣就節(jié)省了大量碼字,提高了壓縮率。視頻壓縮算法中,運(yùn)動(dòng)估計(jì)永遠(yuǎn)是最關(guān)鍵最核心的部分。
去除空間相關(guān)性是通過(guò)DCT變換來(lái)實(shí)現(xiàn)的,把時(shí)域上的數(shù)據(jù)映射到頻域上,然后對(duì)DCT系數(shù)進(jìn)行量化處理,基本上,所有的有損壓縮,都會(huì)有量化,它提高壓縮率最明顯,模數(shù)轉(zhuǎn)換也是靠量化吧?。
當(dāng)然,一些在無(wú)損壓縮中非常好用的壓縮算法,視頻壓縮里面也有采用,比如霍夫曼編碼等。
基本上視頻壓縮的核心就這些,當(dāng)然,這些里面的具體實(shí)現(xiàn)還非常復(fù)雜,也有很多學(xué)問(wèn),但是大的方面基本上就是去除相關(guān)性了。抓住這兩點(diǎn),再去理解壓縮標(biāo)準(zhǔn)中的具體算法就不難了。
1.3 H.261 簡(jiǎn)要介紹
H.261 協(xié)議又被稱(chēng)為p64,是第一個(gè)視頻壓縮標(biāo)準(zhǔn),主要應(yīng)用于視頻會(huì)議行業(yè)。從壓縮技術(shù)上來(lái)說(shuō),與后來(lái)的壓縮技術(shù)相比,它的算法最簡(jiǎn)單,自然,壓縮的效果也比較差。對(duì)于研究視頻壓縮技術(shù)的工程師而言,從H.261開(kāi)始研究,有種事半功倍的感覺(jué),因?yàn)楹髞?lái)的壓縮算法基本思想都和H.261差不多,只是在細(xì)節(jié)上更加高效了。
前面介紹過(guò)了,視頻壓縮的關(guān)鍵就是運(yùn)動(dòng)估計(jì)、DCT變換、量化和反量化。H.261除了這些,還有一個(gè)環(huán)路濾波器,用來(lái)消除塊效應(yīng)。下面,我們一一介紹。
運(yùn)動(dòng)估計(jì)(ME)
我們經(jīng)??梢耘龅竭@樣的情況,兩個(gè)不同的產(chǎn)商,他們都支持H.261,設(shè)置的碼率也一樣,可是實(shí)際跑起來(lái)的時(shí)候,兩個(gè)產(chǎn)商的編碼效果差別卻很大,這里面,主要的原因就是運(yùn)動(dòng)估計(jì)算法不同。
最簡(jiǎn)單的運(yùn)動(dòng)估計(jì)算法是所謂的全搜索,可是實(shí)際的產(chǎn)品中,幾乎沒(méi)有采用這種算法的,為什么?因?yàn)槿阉魈?,?duì)視頻編碼的算法選擇而言,永遠(yuǎn)是在編碼效率和算法性能上找平衡點(diǎn)。事實(shí)上,有很多算法在性能上可能是全搜索的10%左右,但是,編碼效率可能只比全搜索稍差,對(duì)于實(shí)時(shí)應(yīng)用的編碼器而言,選擇一個(gè)適合CPU運(yùn)算特點(diǎn)的優(yōu)化算法是關(guān)鍵。這里插一句,如果是非實(shí)時(shí)應(yīng)用的話,采用全搜索是個(gè)非常好的注意。
H.261協(xié)議里面其實(shí)并沒(méi)有定義如何運(yùn)動(dòng)估計(jì),因?yàn)椋瑓f(xié)議一般只定義解碼器,它不管你如何編碼,只要你最后得到的碼流符合它的協(xié)議就夠了。與運(yùn)動(dòng)估計(jì)對(duì)應(yīng)的解碼過(guò)程叫運(yùn)動(dòng)補(bǔ)償(MC),H.261運(yùn)動(dòng)補(bǔ)償主要特點(diǎn)有:1 它的搜索范圍是 -16到15;2 只支持整像素搜索;3 每個(gè)宏塊只有一個(gè)運(yùn)動(dòng)向量,并不支持到塊級(jí)運(yùn)動(dòng)估計(jì);4 只支持P幀,并不支持雙向預(yù)測(cè)幀(B幀)。
與后來(lái)的協(xié)議相比較,個(gè)人的看法,運(yùn)動(dòng)估計(jì)的范圍-16到15基本上是夠用了,再大的話,一方面性能可能做不到,另一方面,實(shí)際應(yīng)用中,運(yùn)動(dòng)超過(guò)這個(gè)范圍的宏塊還是很少的。與整像素搜索對(duì)應(yīng)的是半像素、四分之一像素等搜索精度,這個(gè)算法應(yīng)該說(shuō)非常有效,個(gè)人感覺(jué)H.263比H.261算法好的最關(guān)鍵因素就是這里。運(yùn)動(dòng)向量只到宏塊一級(jí)其實(shí)差不多,不過(guò)支持4mv的話,有些場(chǎng)合碼率可能可以節(jié)省5%到15%,這是我以前mpeg-4編碼器測(cè)試的結(jié)論,當(dāng)然,為了追求這10%左右的效率,性能上運(yùn)動(dòng)估計(jì)大約要增加30%以上的運(yùn)算量(看選擇的算法)。B幀也是很重要的算法,以前的測(cè)試結(jié)論大約是可以節(jié)省15%左右,不過(guò)H.261也不支持。
在H.261的編碼幀中,分為I幀和P幀。I幀也被稱(chēng)為關(guān)鍵幀,而P幀則被稱(chēng)為預(yù)測(cè)幀。I幀里的宏塊全部由幀內(nèi)編碼宏塊組成,并沒(méi)有運(yùn)動(dòng)估計(jì)。實(shí)際上I幀的編碼算法和jpeg壓縮算法很類(lèi)似,可以說(shuō)就是使用了jpeg壓縮技術(shù)。I幀的壓縮效果比P幀差很多,同等圖像質(zhì)量的話,I幀的碼率可能是P幀的十倍,從這里可以看出來(lái)運(yùn)動(dòng)估計(jì)對(duì)于視頻壓縮的巨大作用。也正是因?yàn)镮幀壓縮效果差,因此,很多編碼器算法都有一個(gè)叫做關(guān)鍵幀間隔的參數(shù),這個(gè)值比較流行設(shè)置為100,也就是大概4秒鐘出現(xiàn)一次I幀。很多實(shí)時(shí)編碼的算法,經(jīng)常會(huì)過(guò)幾秒,畫(huà)面給人的感覺(jué)是刷了一下,這就是關(guān)鍵幀在刷新。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。