MPEG4 的目�(biāo)定義大致�(lái)源于兩方�: 一是極低比特率下的多媒體通信, 一是多工業(yè)多媒體通信的融�。一方面, MPEG4 要求有高效的壓縮編碼方法, 另一方面,MPEG4 要求有獨(dú)立于�(wǎng)�(luò)的基于視�/音頻�(duì)�(AV �(duì)�)的交互��
MPEG4 是一�(gè)龐大的有�(guān)交互多媒休編� 與通信的標(biāo)�(zhǔn), 目前已出�(tái)的委員會(huì)草案CD, 多達(dá)上千�(yè)。我們重�(diǎn)概述了AV �(duì)象的編碼技�(shù)�
1 多媒體傳送集成框架DMIF
DMIF 主要解決交互�(wǎng)�(luò)�、廣播環(huán)境下以及磁盤(pán)中多媒體 �(yīng)用的操作�(wèn)�, 通過(guò)傳輸多路合成比特信息, 建立客戶端和� �(wù)器端的握手和傳輸。與�(guò)去不同的�, 由于MPEG4 碼流�, � 括許多的AV �(duì)�, 一般而言, 這些AV �(duì)象都有各自的緩沖�, 而不僅僅是視頻緩充器和音頻緩充器�
2 �(yǔ)法描�
MPEG4 定義了一�(gè)句法描述�(yǔ)言�(lái)描述AV �(duì)象比特流� 示和�(chǎng)景描述信�。這�(gè)句法描述�(yǔ)言是對(duì)C++的擴(kuò)�, 不僅� 于表�(dá)其AV �(duì)象特�, 而且也易于軟件仿真實(shí)�(xiàn)與模型驗(yàn)�。與 MPEG4 相比, MPEG1 和MPEG2 則采用一種類(lèi)C �(yǔ)言的描�, MPEG4 描述�(yǔ)言反映了面�?qū)ο蠹夹g(shù)�(lái)描述�(duì)象�
3 音頻�(duì)象的編碼
視頻音頻的壓縮編碼自然仍是MPEG4 的核心所�。不�(guò), � 以前的MPEG1、MPEG2 不同的是:MPEG4 不僅支持自然的聲� ( 如語(yǔ)音和音樂(lè)) , 而且支持基于描述�(yǔ)言的合成聲�( 如MIDI 之類(lèi)) 。而且, 支持音頻的對(duì)象特�。即一�(gè)�(chǎng)景中, 同時(shí)有人聲和背景音樂(lè), 它們也許是�(dú)立編碼的音頻�(duì)象�
1.1 自然聲音編碼
MPEG4 研究比較了現(xiàn)有的各種音頻編碼算法, 支持2�64K的自然聲音編�。如8KHz 采樣頻率�2�4Kbps 的語(yǔ)音編�, 以及8KHz �16KHz 采樣頻率4�16Kbps 的音頻編�, 一般采用參�(shù)編碼; 6�24Kbps 的語(yǔ)音編�, 一般采用碼激�(lì)線性預(yù)�(cè)CELP (Code Excited Linear Predicitive) 編碼技�(shù); 16Kbps 以上碼率的編 �, 則可采用�(shí)�(T/F)變換編碼技�(shù)。這些技�(shù)�(shí)�(zhì)上借鑒了已 有的音頻編碼�(biāo)�(zhǔn)如G723、G728 以及MPEG1 和MPEG2 �。圖1 是MPEG4 的可伸縮自然音頻編碼器示意圖, 包括三種編碼技�(shù)�
�1 通用MPEG4 音頻編碼方框�
1.2 合成聲音
在合成聲音編碼當(dāng)�, MPEG4 引入了兩�(gè)極有吸引力的編碼技�(shù): 文本到語(yǔ)�(Text- to- Speech)編碼和樂(lè)譜驅(qū)�(dòng)合成編碼技�(shù)。這為�(wǎng)�(luò)上低比特率下交互的帶有語(yǔ)音的游戲鋪平了道路�事實(shí)�, 合成聲音編碼技�(shù)即是一種基于知�(shí)�(kù)的參�(shù)編碼�
4 視覺(jué)�(duì)象的編碼
同樣, MPEG4 也支持對(duì)自然和合成的視覺(jué)�(duì)象編�。合成的視覺(jué)�(duì)象如2D�3D �(dòng)�(huà), 人的面部表情�(dòng)�(huà)�, 這些合成圖像單獨(dú)編碼, 不僅可有效壓�, 而且還便于操�。對(duì)自然視覺(jué)�(duì)象的編碼, 也是MPEG4 的重�(diǎn)。比�(duì)于靜止圖�, MPEG4 采用零樹(shù)小波算法(Zerotree WAV eletalgorithm)以提供高壓縮�, 同時(shí)還提供多�(dá)11 �(jí)的空間分辨率和質(zhì)量的可伸縮性。對(duì)于運(yùn)�(dòng)視頻�(duì)象的編碼, MPEG4 采用了如�2 所示的編碼框圖, 以支持圖象的編碼�
�2 MPEG4 視頻編碼方塊�
可見(jiàn), MPEG4 為了支持基于�(duì)象的編碼, 引入了形狀編碼模塊。為了支持高效壓�, MPEG4 仍然采用了MPEG1、MPEG2 中的變換、預(yù)�(cè)混合編碼框架。對(duì)于一般的任意形狀的視頻對(duì)�,
MPEG4 編碼后的碼流�(jié)�(gòu)�(jiàn)�3�
�3 通用MPEG4 視頻編碼
�(duì)于實(shí)�(shí)的極低比特率的應(yīng)�, 如可視電�, MPEG4 視頻編碼采用VLBV(極低比特率視�)核�(jìn)行編�, �(lèi)似于ITU 的H 263 直接�(duì)矩形視頻編碼, 而不采用形狀編碼模塊。因�, 編碼后的碼流�(jié)�(gòu)�(jiàn)�4:
可見(jiàn), MPEG4 采取了向前兼容H263, 同時(shí), 也提供了一些高 層特�, 如基于內(nèi)容的編碼。其�(kuò)充的方式, 如圖5。與此同�(shí), MPEG4 還支持有誤碼信道傳輸下的健壯�, 提供了更好的同步� 誤碼恢復(fù)�(jī)��
�5 MPEG4 的視頻功能擴(kuò)�
5 �(chǎng)景描述及其它 �(chǎng)景措述主要用于描述以上單�(gè)的AV �(duì)象如何在一具體 AV �(chǎng)景座�(biāo)下的組織與同步等�(wèn)�。同�(shí)還有AV �(duì)象和AV �(chǎng) 景的知識(shí)�(chǎn)�(quán)保護(hù)等問(wèn)��, 就是我�?nèi)绾涡蕾pMPEG4 為我 們提供的豐富多彩的AV �(chǎng)景了�
制定中的MPEG4 將提供一系列技�(shù)以滿足視�(tīng)�(nèi)容的提供 �、網(wǎng)�(luò)服務(wù)和最終用戶的要求。對(duì)于網(wǎng)�(luò)服務(wù)�, MPEG4 將使� 媒體信息在不同網(wǎng)�(luò)中提供透明的傳�, 便于保護(hù)知識(shí)�(chǎn)�(quán)� MPEG4 的多媒體信息將獨(dú)立于�(wǎng)�(luò)特性并能針�(duì)不同�(wǎng)�(luò)特� �(jìn)行優(yōu)化傳輸。對(duì)于最終用�, MPEG4 將支持更多的功能, 尤其� 支持�(duì)AV �(duì)象的交互作用�
為了�(dá)到這些目標(biāo), MPEG4 采用如下方法:
(1)采用“AV �(duì)象”AVOs(audio/VisualObjects)�(lái)表示�(tīng)�(jué)、視 �(jué)或者視�(tīng)組合�(nèi)�。在MPEG4 �, 可交互的“AV �(duì)象”一改過(guò) 去圖像幀或音頻幀的結(jié)�(gòu), 加入了更大的靈活性和交互性。這是 MPEG4 的主要特征—基于內(nèi)容的編碼�
(2)允許組合已有的AV �(duì)象以生成�(fù)合AV �(duì)�, 并由此生 成視�(tīng)�(chǎng)�(AV)�(chǎng)�)。在MPEG4 �, 一�(gè)�(chǎng)景已不再是一幀幀� 視頻、音頻序列組成的, 而是由許多“AV �(duì)象”按照一定的坐標(biāo)� 層次組織起來(lái)的。MPEG4 采用一種叫做合成—自然混合編� SNHC(Syn thetic- naturalhybridCoding)的方法來(lái)組織這些“AV �(duì) 象�, SNHC 的許多觀念實(shí)際上�(lái)源于虛擬�(xiàn)�(shí)建模�(yǔ)言VRML�
(3)允許�(duì)“AV �(duì)象”的�(shù)�(jù)靈活地多路合成與同步, 以便� 擇合適的�(wǎng)�(luò)�(lái)傳輸這些“AV �(duì)象”數(shù)�(jù)。在MPEG4 �, 一�(gè)AV �(duì)象用一�(gè)或多�(gè)基本流來(lái)表達(dá)。這些流還帶有一些有�(guān)傳輸� �(wù)�(zhì)量QoS 的參�(shù)(如碼流率、比特誤碼率等等)和一些其� 參數(shù), 如流�(lèi)型信息和流同步信�。一般而言, 我們將這些多路� 成和同步的AV �(duì)象數(shù)�(jù)流分成四�: 基本流層(Elementary Stream Layer)、訪�(wèn)單元�(Access Unit Layer)、靈活多路合成層 (Flexible Multiplexing Layer)和傳輸層(Transport Multiplexing Layer) �
(4)允許用戶在接收端生成的AV �(chǎng)景中與AV �(duì)象�(jìn)行交� 操作。在接收�, MPEG4 允許用戶�(jìn)行如下的操作, 如改變場(chǎng)景的 視角�(lái)欣賞AV �(chǎng)�, 將AV �(chǎng)景中的AV �(duì)象拖到不同的地方, 通過(guò)�(diǎn)�(click)一�(gè)具體的AV �(duì)象來(lái)觸發(fā)一系列事件, 選擇不同 的語(yǔ)種等�。當(dāng)�, 這些�(chǎng)景的交互性取決于AV �(chǎng)景設(shè)�(jì)�, � MPEG4 為這種�(shè)�(jì)提供了可能�
(5)支持AV �(duì)象的知識(shí)�(chǎn)�(quán)的標(biāo)�(shí)與保�(hù)。由于MPEG4 � �(yǔ)�, 支持廣泛的AV �(duì)象和AV �(duì)象的編輯組合, 因此, 區(qū)分不 同AV �(duì)�、AV �(chǎng)景的知識(shí)�(chǎn)�(quán)�(yīng)�(dāng)在MPEG4 的語(yǔ)法中得到� �(xiàn)�
MPEG4 的應(yīng)用面非常的廣�, 既可以用于高�(zhì)量的�(shù)字電�, 又可以應(yīng)用于極低碼率的移�(dòng)多媒體通信系統(tǒng), 還可以以交互的方式工�。框架就是針�(duì)特定的應(yīng)用確定要采用的編碼工�, 它是MPEG4 提供的工具集的一�(gè)子集。不同框架的碼流句法�(jié)�(gòu)各不相同, 而且各視�、音頻和圖形框架中支持的�(duì)象類(lèi)型各不相同。每�(gè)框架又有一�(gè)或多�(gè)�(jí)別來(lái)限制�(jì)算的�(fù)雜度� MPEG4 針對(duì)不同的媒體內(nèi)容和�(chǎng)景描述定義了4 �(lèi)框架:視頻框架、音頻框�、圖形框�、場(chǎng)景描述框架。在選用不同的框架時(shí)各部分是相互�(dú)立的� 由于其豐富的工具�, 而且通過(guò)下載, MPEG4 �(biāo)�(zhǔn)還將支持使用不在�(biāo)�(zhǔn)中出�(xiàn)的工具、算法和輪廓, 所以MPEG4 能滿足多種多樣的�(yīng)用需�, �: (1)�(shí)�(shí)通信(realtime communications); (2)�(yuǎn)程監(jiān)�(surveillance); (3)移動(dòng)多媒�(mobile multimedia); (4) 基于�(nèi)容的存儲(chǔ)與檢�(content based storage and retrieval); (5)�(wǎng)上視頻流(streaming video on the Internet); (6)�(shù)字調(diào)幅廣�(digital AMbroadcasting); (7)廣播(broadcast); (8)電影電視后期制作(studio and television post production); (9)DVD; (10)虛擬�(huì)�(virtual meeting)� 目前MPEG4 的產(chǎn)品已在市�(chǎng)上出�(xiàn)�, �(wǎng)上也有許多視頻文件是以MPEG4 的格式壓縮的�
MPEG-4 這�(gè)�(biāo)�(zhǔn)支持新的方法�(jìn)行通信, 存取和處理影� �(shù)�(jù)。影音通信正出�(xiàn)許多新的要求, �(xiàn)有標(biāo)�(zhǔn)并不能符合這些 要求。新�(biāo)�(zhǔn)的一�(gè)特點(diǎn)就是用戶能根�(jù)�(nèi)容存取和處理視頻� �(hào)� MPEG4 的應(yīng)用將是廣泛而深�(yuǎn)的�
這一新的工業(yè)�(biāo)�(zhǔn)將至� 可以�(yīng)用于以下�(chǎng)合:
(1)�(shí)�(shí)多媒體監(jiān)控:
(2)極低比特率下的移�(dòng) 多媒體通信�
(3)基于�(nèi)容存�(chǔ)和檢索多媒體系統(tǒng)�
(4) Internet/Intranet 上的視頻流與可視游戲�
(5)基于面部表情模擬的虛擬會(huì)議:
(6)DVD 上的交互多媒體應(yīng)用:
(7)基于�(jì)算機(jī)�(wǎng)�(luò)的可視化合作�(shí) �(yàn)室場(chǎng)景應(yīng)用:
(8)演播室和電視的節(jié)目制��