《《多媒体技术》培训教材.docx》由会员分享,可在线阅读,更多相关《《多媒体技术》培训教材.docx(24页珍藏版)》请在课桌文档上搜索。
1、多媒体技术一、多媒体技术(一)多媒体计算机的基本配置(及可选配置)一般来说.多媒体个人计算机(MPC)的基本硬件结构可以归纳为七部分:至少一个功能强大、速度快的中央处理基(Ej);可管理、控制各种接口与设备的配11:具有一定容量(尽可能大)的存储空间;高分辨率显示按口与设备:可处理音看的接口与设Ih可处理IB像的按口设备:可存放大数据的配量等.这样提供的配潴是最基本MpC的硬件基础它们构成YPC的主机.除此以外,MpC能扩充的能跟还可能包括如下几个方面;光盘胆动Sh包括可.取写光盘型动器(CD-R)、HoRM光盘胆动器和CD-RoM第动器。其中CIbROM飘动器为MPC带来了价格便宜的650M
2、存储设备.存有图形、动画、图像.声礼文本、数字音频、程序等资源的CD-R61早已广泛使用,因此现在光驱对广大用户来说已经是必须配置的了。而可王写光盘、WORMJtfit价格较贵,目漪还不是非常普及。另外,DVD出现在市场上也有叫时日了它的存储地更大,双面可达17GB,足升级换代的理想产品.S卡:在讦频卡上连接的音嫉怆入怆出设备包括话筒、音物播放设备、MIDI合成器、耳机、扬声器等。数字书频处理的支持是多媒体“电机的重要方面,音频K具有A/D和D/A白顼信号的箝换功能,可以合成音乐、混合多种声源,还可以外接MIDI电子音乐设招.图形加速卡:图文并茂的多媒体表现需要分辨率高,而且同屏显示色彩丰富的
3、显示卡的支持,同时还要求具有Windows的显示胭动程序,并在Windows下的像素运算速度要快,所以现在带有图形用户接口GU1.加速器的局部总线显示适配器使得Windors的显示速度大大加快.视H卡,可细分为视频捕捉卡、视域处理卡、视痢播放卡以及N编码器等专用卡,其功能是连接抵像机、VCR影碟机、TY等设备,以便获取、处理和衣现各种动画和数字化视翔媒体。扫描卡,它是用来连接各种图形扫描仪的,是常用的静态照片、文字、工程图坳入设备.打印机按口:用来连接各种打印机,包括普通打印机、激光打印机、彩色打印机等,打印机现在已经是最常用的多媒体输出设备之一了。交互控制接口它是用来连接触摸屏、鼠标,光第等
4、人机交互设需的,这些设住将火大方便用户对MpC的使用.网络按口:是实现多媒体通信的_要MpC扩充部件.计算机和通信技术相结合的时代己经来临,这就需要V门的多媒体外部设需将数据吊庞大的多媒体信息传送出去或接收进来,通过网络接口相接的设符包括视频电话机、传真机、1.AN和ISDN等.(一)媒体播放器在WEB中的应用我们知道,由于声音点播和影视点播应用还没有完全直接集成到现在的Reb浏览器中,这就需要一个单独的应用程序来招助,通常我们使用媒体播放器(YediaPIayer)来播放声音和影视,典型的媒体播放器要执行好几个功能,包括解压缩、消除抖动、错误纠正和用户播放等功能.现在可以使用像插件这种技术把
5、媒体播放涔的用户接口放在Web齐户机的用户界面上,捌览器在当前Heb页面上保留唐窑空间,并且由媒体播放甥来管理。目前,大多数客户机使用如下几种方法来读取声音和影视文件:通过Web浏览潺把声音/影视从I1.eb服务器传送给媒体播放湍直接把声音/影视从Web眼务器传送给媒体播放器直接把声也/影视从多媒体流放服务潺传送给魏体播放器在这个过程中,媒体播放器的主要功能表现在如下四个方面:解压务h几乎所有的声音和电视图象都是经过压缩之后存放在存储器中的,因此无论播放来自于存储器或者来自网络上的声吾和影视都要解压缩。去科动,由于到达接收端的每个声音信息包和电视图象信息包的时延不是一个固定的数值.如果不加任何
6、措施就原原本本地把数据送到媒体播放器播放,听起来就会布抖动的感觉,H至对声音和电视图象所表达的信息无法理解,在媒体播放涔中,限制这种抖动的简单方法是使用缓存技术,就是把内吾或者电视图望数据先存放在缓冲存储器中,经过一段延时之后再播放.错谀处理:由于在因特网上往往会出现让人不能接收的交通拥挤,信息包中的部分伯恩在传输过程中就可能会丢失。如果连续丢失的信息包太多,用户接收的声音和图象质疑就不能容忍。采取的办法往往是承传。用户可拄制的接口:这是用户直接控制媒体播放器播放媒体的实际接口.媒体播放器为用户提供的控制功能通常包括泮音的音最大小、初停新开始和陕转等等,二、数据压缩与解压缩常用算法(一)数据压
7、缩方法的分类数据压缩实际上是一个编码过程,即将原始数据进行制玛压缩,数据解压缩是数据压缩的逆过程,即将压缩的编码还原为原始数据.因此,数据压方法也猿码方法,自从1948年O1.iYCr提出脉冲编码调制(PeM)编码理论以来,编码方法的研究取得了极大的发展.数据压缩技术已日臻成熟,适合各种应用场合的编码方法不断产生.口徜采用的数据压缩方法按出发点不同会有几种不同的分类结果。1 .按照压修方法是否产生失真分类无失Ma码方法,也称为可逆码方法.此类方法解压缩以后的还原数据与原始数据完全一致.有失真方法,也称为不可逆码方法.此类方法解压缩以后的还原数据与原始数据之间有误差。但这种误差是限定在一定范用内
8、的.即能满足具体应用的要求.以图像为例.此方法的还原图像虽与原始图像之间存在误差,但其视觉效果仍能被人所接收.2 .按照压Mr方法的原理分类(Drawn它是针对空间冗余和时间冗余的压缩方法。其施本思想是利用己被编码的由的数据值来颈测邻近的一像素点的数据值,预测是根据某一模型进行的,如果模型选取得足酩好的话,则只需存储和传坳起始像索和模型参数就可以代替整幅图像r.按照模型的不同,覆评码又分为线性演评、疆内MIe和M间调,它也是针对空间冗余和时间冗余的压缩方法.其基本,思想是将图像的光强矩阵(时域信号)变换到系数空间(领域)上,然后对系数进行编码压缗,在空间上具有旅相关的信号,反映在领域上是某些特
9、定区域内的能V常常被集中在一起,或者是系数矩阵的分布具有某些规律,可以利用这些规律来分配领域上的值化比特数.从而达到压缩的目的.由时域映射到狼城总是通过某种变换进行的,这种方法正是由此得名.因为正交变换的变换矩阵是可逆的且逆矩阵与转置矩阵相等,这就使解码运算方便且保证布好.所以交换码总是采用正交交换。(3又称分频带编码,其基本思出是将图像数据变换到领域后,按频率分带,然后用不同的M化器迸行量化,达到报优的加合.语言和图像信息都有较宽的频带,信息的能母集中在低频区域,细节和边缘则集中在高痂区域.子带编码采取保用低频系数舍去高焕系数的方法进行编码,操作时对低频区域取较多的比特数来编码,以牺牲边线细
10、节来换取比特数的下降,恢复后的图像比原图模糊,其特点是有较高的压缩比和信噪比。根据信恩册原埋,对出现概率大的符号用短码字表示,反之用氏码字表示.其目的是减少符号序列中的冗余度,提裔符号的平均信息Iih它根据符号序列的统计特性,寻找某种方法把符号序列变换为以短的码字序列,使各码元承报的信息房达到农大,同时保证无失真地恢更原来的符号序列,实现这种码的方法有哈夫曼码方法和自适应二进制算术码方法.(5城计4M统计簿码技术根据一幅图像像素值的统计情况进行编码代缩,也可先将图像按前述方法压缩,对所得的俶加以统计,再做压缩.由此可知,统计一码就可单独使用,又可用在某个靠法之后做进一步的压编最常用的统计编码方
11、法是哈夫及编码方法.(64mm又称游程编码或运行长度编码,其菸本思S!是将一个相同伯的连续申用一个代去他和州长来代酋。行程编码又分为定长行程端码和变长行程编码两种。定长行程端码是指涮码的行所使用的二进制位数固定;变长行程编码则指对不同范用的行使用不同位数的二进制位进行编利.行程码适合于二值图像的码.其基本思想是将被娘妈的信息表示成0,1之间的一个间.信息越长.间阳就越小,箱码所需的二进制位就越多.除了基于概率统计的固定模式外,还书自适应模式.算术编码适用于不进行概率统计的场合;当信源符号概率比较接近时,其效率高于哈夫曼编码方法,除了上述的彘码方法外,还有结构箱码方法、基于知识的编码方法等.(二
12、)哈夫曼编码i哈夫曼隹变字长1码定理为了说明哈夫吧(Huffman)编码的具体方法,首先证明哈夫蛀1952年挺出的变字氏编码的最佳编码定理。定理:在变字长娟码中,对于出现概率大的信息符号编以短字长的眄,对于概率小的符号娟以长字长的码.如果码字长度严格按所对应符号出现概率大小逆顺序排列,则平均码字长度一定小于其他任何符号版序排列方式得到的码字长度.3 .哈夫曼偏码的方法哈夫及编码是根据可变长度坦隹编码定理,应用哈夫曼算法而得到的一种编码方法,可以证明,在给定符号集和概率模型时,没有任何其他整数码比哈夫曼码有更短的平均码长,也即它是一种G优码.4 .哈夫曼编码的特点虽然哈夫曼码是变长的,编码后的码
13、串中又没有分隔码字的标识符,但由于它的无歧义性,完全能够正确地愦复出原信源所怆出的符号序列来.哈夫他编码方法构造出来的码不是惟一的.其原因有二:一是给两个分支状值时,既可以是上左)分支为I、下(右)分支为0,又可以是上(左分支为0、下(右)分支为I.故造成编码不推一二是当两个符号的出现概率相等时,谁在前谯在后也是随机的,也造成编码的不惟一。哈夫蛀编码码字字长不统一,给硬件实现带来一定的困难.为不同的信海,哈夫曼编码的效率也是不同的,当信源概率是2的负后时,其编码效率最尚,可达到100%;当信源为等概率时,其编码效率最低.因此,只有概率分布极不均匀时,哈夫及纳码才会收到显著效果.时信源进行哈夫蚣
14、编码后形成了一个哈夫及编码表,若要正确解码必须依照此表,于是在信源存储与传输过程中,必须首先考虑此表的存储与传谕,故此表也占有一定的比特数,最好的解决方法是使用默认的哈夫曼编码表,因为在某些应用场合中.信源的概率嵌从于某一分布(这主要由大量统计得到,可按经验构造一个概率模型,这样就可以事先在发送端和接收端固定哈夫蚣编码衣,从而在数兆传输时省去了哈夫曼编码表的传输,但如果信源的实际概率模型与编码时所假设的概率模型有差异,实际的码长将大于预期值编码效率将下降.(三)预测编码预测编码方法是一种专门用干压缩统计冗余数据的技术,主要是减少数据在空间和时间上的相关性.它根据某模型利用以往的样本值对新样本值
15、进行预测,然后将样本的实际值与其预测值相减褥到一个误差值,进而对这一误差位进行编码。如果模型足纾好,且样本序列在时间上相关性较强,则误差值远远小于实际值.从而达到了J卡端的目的.理论上数掘源可以准确地用一个数学模型表示,使输出数据总地与模型的怆出保持一致,因此可以准确地预测数据。但没有一个实际的预测器能找到如此完美的数学模型,最好的预测器也只货做到以以小化的误差对下一个采样进行预测.由于整个数据信源的实际模型很更杂且是时变的.在大多数情况下段测几乎不可能实现.故预测器通常设计成用前面几个样值来预测下一样值,利用样本的预测涔以这些样本的戏性或非践性函数为夔础,大多数使用线性预测函数。预测编码方法
16、中典型的有DPCM和ADPCM方法.1差分味冲调(DPCM)AhM.分脉冲辑制(Differtiitia1.Pu1.seCode-M(Ku1.ation,IR1.称I)PeM)是降低每个像素所需平均比特效实用的方法.对于绝大多数图像来说.在局部空间和时间上足高度相关的,因而可以在已得到像素的基础上通过对当前像素的按测来减少图像的数据信.2.自适应差分脉冲调制(ADpC1.I)涌DPCM系统的基础是输入数据为平稳的随机过程,这样就可以用固定的参数来设计预测器.然而,当输入数据并非是所要求的平稳的IaI机过程时,或总体上平桧,但局部不平稳时,使用固定的参数来设计预测器将是不合理的.这时可采用自道应
17、侦测编码的方法,即定期地重新计算协方差矩阵和相应的加权因子,充分利用其统计特件重新谓情预测参数.使预测潺M看给入数据的变化而变化.从而得到较为理想的输出.(四)变换编码1. 变换第码的暮本概念在数字信号处埋中,为了便于分析或求解,羟常需要进行傅里叶变换或Z变换,以便将时域信号变换到频域上去分析或求解。在图像处理时,也可将图像压缩问题变换到领域上或其他城去处理。交换码是指先对信号进行某种的敷交换,从一种城(空闻)交换到另一料域(Sff1.),再对交换后的信号进行码处理.以声音、图像为例.由于声音、图像大部分信号都是低频信号.在频域中信号的能信较集中,故将时域信号变换到领域,再对其进行采样、编码,
18、便可以达到压缩数据之目的。下面是利用坐标变换去除相关的例子,有相邻的两个采样值X1.和x2.若各用3比特编码,则各有8个幅度等锻,于是两个采样值的合成可能性共有8X8=64种,如图2-11所示.横坐标表示X1.的8种可能等锻,纵坐标衣示x2的8种可能等级,考虑到样位的相关性,X1.和x2同时出现相近懈度的可能性簸大.统计表明,合成可能性往往落在图中虎城所包围的区域内,如果将眼标釉旋转4S”,到和坐标系,则它们的合成可能性就落在坐标轴附近.不管幅度在O到7的可能等级间如何变化,的两度始终只在较小的范阚内变化-这意味着和的相关性M小了.因此通过这种变换,就可以得到一组除去了部分相关性的输出样值.如
19、前所述,预测编码主要是在时域上进行,而变换编码则主要是在变换域上进行。通过变换操作除去由于坐标轴选择不当而引起的相关性,且有可能将难以处理的各种小局部相关集中到一起处理.交换码方法有两个*明显的静点:一是在频域上信息是按猱谐能麻与粉率分布排列的,只要对领域平面进行合理心化就可以得到较高的压缩效率,变换就是寻求坐标轴的最优选择.:是与预测等其他方法相比,变换编眄具有较高的计算红杂度.2. K1.变换K1.交换是一种住的交换码方法,常常用作禽交换性俺好坏的标准,故在数据压缩中占有蜃要的地位.设X=IXIx2.XnfT和是两个维随机向量且正交变族的转置矩许为这里是k维向量,且具有标称正交特性,即由于
20、相互正交,所以它们是规性独立的,即它们之中任何个都不能由其余向玳的线性祖合来产生。我们知道,n个戏性独立的向贵UJ以生成一个n维空间,这种向知林为该空间的基,其中每一个称为基向S1.3. I1.做余弦变换(DcT)余弦变换是一种准佳交换.当信号的统H特性符合一阶q尔柯夫过程,而且相关系数接近1时(大多数图像信号椰可以足醺精确地用此模型描述,DCT与KI.变换的压缩性能及误差很接近,变换后的能此集中程度较高。即使信号的统计特性偏恩这-模型,它的性能下降也不显著。由于DCr的这一特性,再加上其基向墙是固定的,井具有计算及杂度适中等原因,故在图像数据压缩中得到了广泛的应用.三、多媒体数据压缩基本原理
21、(一)多媒体数据压缩的必要性与可能性在多媒体计算机系统中,信息从单媒体转到了多种媒体,要衣示、传输和处理大啾的声音、图像挂至影像视频信息,其数据曲之大是非常惊人的.卜面分别以文本、图像、音频、视频等不同类型的信息为例计究一下它们的信息成.1 .文本设屏幕的分辨率为640X48(中等分辨率,字符大小为8X8点阵.每个字符占用两个字节,则满屏字符的数据存储kt为:(64(k8)(488828-9MX)B76.8kbit.2 .BB以一幅640X480中等分辨率的伪彩色图像8bitf来看,则啾图像的数据存储量为:640480X8=245760Obi1.=2.46MbiI;若是同样大小的出彩色图像(2
22、4bi1./像素),则一帧图像的数据存储依为:640X48OX24=73728OobiI=7.37MbiI,3 .M1.先看简单的语音信号,实险表明,人在正常说话时的音频一般在20HZ到4kHz范,即人类语音带宽为4kHz.依据采样定理.当采样频率不小于两倍的原始信号顿率时.才能保证采样后信号可被保式地恢笑为原始佶号.若采样位数取8bit,则I秒的数据存储J1.t为4X2X8=Mkhit:如果是灰质St音频,采样频率至少为44.1kHz,量化为16bit双通道立体声,则1秒的数据存储量为44.1X16X2=141INkbi1.=M1.Mbi1.,在6(X)MB的标准光盘中也仅能存放约1小时左右
23、的数据。4 .m以一般彩色电视信号为例,YIQ彩色空MI中各分Jt的带宽分别为4.2MHz、1.SMHz和0.5MHz。设各分吊均被数字化为8位,根据采用样定理,则1秒的电视图像信号数规存储盘利达到(42+1.5H)5)X2X8=99.2MbiI,即使是存放在600MB的标准光盘中,也仅能播放约40秒,从以上多媒体信息与数据量的关系可见,数字化多媒体信息的数据琉是如此巨大,加之信思种类多、实时性要求高给数据的存谛、传输以及加工处理均带来了巨大的Hi力,不仅要求计算机行更高的数据处理和数据传输能力以及巨大的存储空间,而且也要求通信信道有更高的带宽.为了解决存储、处理和传输多媒体数据的问题,除了提
24、高计舞机本身的性能以及通信信道的带宽外,更重要的则是对多媒体数据进行有效的压缩.因此数据压淅编耨码自然就成为了多媒体技术中最为关键的核心技术.多媒体数据之所以能进行压缩,首先是因为多媒体数据中存在祢很大的冗余,包括空间冗余、时间冗余、信息烦冗余、结构冗余、知识冗余、统访冗余等等。其次,作为多媒体信息的主要接收者,人的视觉和听觉都仃其固有的生理特性.如人类视觉有“视觉掩旗效应”,即人对亮度信息很敏感.而对边修的急剧变化不敏感:同样,听觉也存在类似的生埋特性,即人对部分姣率的音柒信号不敏感,因此,可以利用人类视觉听觉特性,去除一些人的生理特性对其不敏第的信息,从而实现对数据的压缩。(二)数据冗余的
25、基本概念与种类1 .数据冗余的基本黑念多媒体数据,尤其是图像、音频和视侦,其数据盘是相当大的,但那么大的数据量并不完全等于它们所携带的信忠盘.挨吉之.我达它们所携带的佶息*并不需要那么大的效据加.在信息论中,这It称为冗余.冗余是指信息存在的各料性展的多余度.例如,180个汉字,其文本数据也仅为360B,若广播员用分钟的时间去读它,则对语书自接采样的数据量将达到480KB,这就是说,传递同样的信息,数字化后的语言数据存在着IYK)多倍的文本数据冗余.2 .败据冗余的类别多媒体数据在数字化后存在着各种形式的数据冗余.-殷来说有以下几种类型:H)空间冗余这是图像数据中经常存在的一种数据冗余.在同一
26、帼图像中.规则物体和规则背景的表面物理特性具有相关性,所谓规则是指衣面颜色分布是有序的而非杂乱无章,这些相关的光成像结构在数字化图像中就表现为数据冗余。例如,一个衣面颜色均匀、各部分的亮度、饱和度相近的规则物体的图像,在对其进行数字化处理生成点阵图后,会发现很大数St的相邻像素其数据是完全一样或十分接近的,完全-样的数据当然可以压缩,而十分接近的数据也可以压缩.去掉这部分图像数据并不影响视觉上的图像质ht然至对图像细节也无多大影响,因为修且图像后人眼分疥不出它与原图像有什么区别,这种压缩就是对空间冗余的压缩。(2时间冗余这是时基类媒体数据中经常存在的一种数据冗余.警如,动态图像是由许多帧连续画
27、面的序列构成的,前后帧之间具有很强的相关性,当播放该图像序列时,随昔时间的推移.若干帧血血的某些地方发生了变化,但有的部位却根本没有变化,这就形成了时间冗余.具体看一个坐在客厅沙发上说话的人的序列画面,从一帧到卜一帧,背景没有发生任何变化,人的葩大部分部位也没有发生变化,仅仅是人的面部略有变化,因此,相邻帧之间存在着很大的数据冗余.同样.谱音数据用于前后也有着很强的相关性.它们也经常包含着冗余.(3)ttW冗余数字化图像中物体灰面纹理等结构往往存在着数据冗余,这种冗余就称为结构冗余.当一场图像中有很强的结构特性,如布蚊图像和隼席图像等,其纹理很规范清唯,于是它们在结构上存在者极大的相似性,也就
28、存在着较强的结构冗余.估息册冗余是指数据所携带的佶息Iit少于数据本身而反映出来的数据冗余.(5)ft送冗余人类的视觉系统由于受生理特性的限制.对于图像场的任何变化并不是都能好知.例如.对图像的东缩或改化而引入的喉声健使图像发生一些变化,如果这些变化并不能被视觉所感知.则忽略这些变化后,仍认为图像是完好的.事实上,人的视觉系统一般的分辨能力约为26灰度等级,而图像量化一般采用28灰度等级这样的冗余就称为视觉冗余.(6次海5余由图像的记录方式与人财图像的知识之间的差异所产生的冗余称为知识冗余。人时许多图像的理斜与人的某些知识有很大的相关性.修如,人脸的图像就有固定的结构.鼻子位于脸的中跳上,上方
29、是眼口上下方是嘴等;又曾如,建筑物中的门和枕的形状、位出、大小比例等,这些规律性的结构可由先验知识和背景知识得到。人具有这样的知识,但计算机存储图像时却还得一个一个像素地存入,这就形成了知识冗余.(T)H他冗余如图像的空间非定常特性所带来的冗余.另外.空间冗余和时间冗余是将侑号看作概率信号时所反应出的统计特性,因此有时也称这两种冗余为统计冗余。(三)图像压缩预处理技术图像数据压缩的任务是在不影响或少影响图像侦量的前提下,层瞅设法减少图像数据中的数据此.上小节讨论的内容表明图像数据中存在各种冗余.因此数据压缩的苜要任务就是去除各种冗余数据.当然捌除冗余数据必然会给图像政以带来一定的损失,这就需要
30、进行相应的鼓处理,来保证将这种损失降至最低限度,因为当捌除的是那些人的视觉系统不能察觉的信息时,图像质豉的投失也不会被人的视觉系统所察觉.为此BB像压缩技术使用一强通用的91处工具,如逑波卷、色差信息二次抽样、化、AURI码、运动补偿、交长网和BB像内”附加的能提供有效压绵因子的图像交换算法.图像覆处理的技术主Hr以下几和1.二次抽样人的视觉对图像亮度分盘的敏感程度高于色差分量,因此,亮度值应以城大的分训率进行编码,可采用二次抽样或删去一些色差像素值而保用亮度值,使数据减少后的图像柄用仅有很小的降低,2田.沙波涔能行选择地删除、衰减或放大信息。3 .量化局化是用整数码来代昔采杆值的技术,揖实值
31、和量化值之差是分疥率和噪声的混合,4 .琬M飨码预测编码通过统计冗余来改is压缩,先前解码的像素做(包括解码和编码)可以估计或预测尚未解码的像素值,这只需要对预测值和口实值之间的差值进行编码。这个差值是预测误差,解码潺用它来修正颈测.5 .运动补偿运动补借使用二维图像簌位移矢盘来预测图愎中邻域像素萩位移值.在新的图像中型新定位像素块.该技术依赖于一个事实,即背景相同的图像序列中,许多物体保持在同样的位置上,有些物体可能移动一段很小的距离。6 .变长码变长码是一种统计技术,它的范本思想是出现频率高的假帙赋以迈码字,出现频率低的值被赋以长码字。平均起来,则使用频率高的短码字起了极大的支配作用,使得
32、新的玛中比原来缩短了很多,实现了更有效的压缩传输和存储.7 .图像内播法图像内插法允许产生中间图像,因此邻近的两幅图像可以产生中间像.于是(在某种情况下)可以减少数据传输和存储.8 .压缩和蟀压缩的速度是压缩系统的两项重要的性能指标.在有些应用中,JK缩和解压端都需要实时进行.这称为对称乐闻,如电视会议的图像传将.(2曲蝌在行些应用中只要求解压缩是实时的,而H缩可以非实时的,这称为非对称压缩,如多媒体CD-RoM节目的制作就采用非对称压缩.压的计算量数据的压缩和解虚缩都需大地的计算:通常压缩的计算量比解压缩的计算破大.如MPEG的压缩编码计算M约为解码的4倍。在MPEG中规定水平方向的像索W7
33、68,麻H方向的像素W576.对于352X240的图像,就有1320个8X8的图像块,计算这样一幅图像的DCT变换需126720次乘法运算和638880次加法运算.实时计算和帧/杪的黑白图像.仪DCT变换就需要数倍于帧图的计算衣.若是处理彩色数字电视时,运算次数还要多,四、哈夫曼编码(一)哈夫曼最佳变字长编码定理为了说明哈夫曼(Huffman)编码的具体方法,首先证明哈夫曼1952年提出的交字长码的量隹码Jt三.定埋:在变字长编码中,对于出现概率大的信总符号编以短字长的码,对于概率小的符号编以长字长的码。如果码字长慢严格按所对应符号出现概率大小逆顺序排列,则平均码字长度一定小于其他任何符号顺序
34、排列方式得到的码字长度.证明:设最佳排列方式的眄字平均长度为则及中P(ai)为伯源信号ai铝现的概率:ni为符号的编码长度.规定P(a1.P(as),其中n1.Wns,1,s=1.,2,11.若将a1.的码字与as的码字互换,其余码字不变,如此互换后,平均码字长度变为则,成为加上两码字互换后与互换前的平均长度之差,即三*nsP(a1.)+n1.P(as)n1.P(a1.)+nsP(as)=+(ns-n1.)P(a1.)-P(as)(2-7)gP(a1.)P(as),nsn1.,所以,即最短,证毕。(二)哈夫曼编码的方法1 .哈夫曼编码哈夫姓编码是根据可变长度蜃佳解码定理.应用哈夫曼算法而得到的
35、一种编码方法.可以证明,在给定符号集和概率模型时,没有任何其他整数码比哈夫笠码有更短的平均码长,也即它是-种最优码.其编码方法如下:将符号按出现的概率由大到小排序.给最后的两个符号各赋予一个二进制码概率大的赋0.概率小的献1(反之也可.把最后两个符号的概率加起来分成一个概率,再按大小由新排序。正新排序后iE红步骤的编玛过程.圣复步骤,直到最后只粼下两个概率为止.将集个符号所对应的各分支赋的0、1值反向逆序扑出,即得到各符号的黎码,下面行一个哈夫亚娟码的具体例子。设有伯源符号集(a1,a2,a3,a4,a5,a6,a7,各符号对应的出现概率分别为23.0.21,0.18,0.15,0.13,0.
36、07,0.03)。哈夫唯编码方法编码的结果,码字的平均长度很接近于信息符号的燧伯。2 .哈夫曼缰码的特点虽然哈夫笠码是变长的,编码后的码率中又没有分隔码字的标识符,但由于它的无歧义性,完全能够正确地恢复出区伯海所输出的符号序列来.哈夫曼码方法构造出来的码不是慵一的,其原因有二:一是给两个分支赋值时,既可以是上左)分支为1、下(右)分支为0,又可以是上(立分支为0、下(右)分支为1.故造成编码不惟一;二是当两个符号的出现概率相等时,谁在前谁在后也是随机的,也造成褊码的不惟一.哈夫编码码字字长不统一,给硬件实现带来一定的困难,对不同的信源,哈夫曼编码的效率也是不同的,当信源概率是2的负窄时,其编码
37、效率最高,可达到100%:当信源为等概率时,其编码效率最低.因此,只有概率分布极不均匀时.哈夫曼编码才会收到显著效果.对信源进行哈夫蚣纳玛后形成了一个哈夫笠编码表,若要正确解码必须依照此表,于是在信源存储与传输过程中必须首先考虑此表的存储与传输故此表也占有一定的比特数最好的斛决方法是使用默认的哈夫蚣编码衣,因为在某些应用场合中,信源的概率服从于某一分布(这主要由大收统计如到),可按羟验构造个概率模型,这样就可以M先在发送端和接收端固定哈夫姓编码表,从而在数据传输时省去了哈夫曼编码表的传输.但如果信源的实际概率模型与煽码时所假设的概率模型有差异,实际的眄长将大于预期1编码效率将下降.五、变换编码
38、在数字信号处理中,为了便于分析或求价,经常需要进行傅里叶变换或Z变换,以便将时域信号变换到痂域上去分析或求解.在图像处理时,也可珞图像虚缩问起变换到领域上或其他域去处理.交换编用是指先对信号进行某伸函数交换,从一秒域(空间)交换到另一种越(空间),再对交换后的信号进行一码处理.以声音、图像为例,由于声音、图像大部分信号都是低频信号,在领域中信号的能信较集中,故将时域估号变换到软域,HJ对其进行采样、编码,便可以达到压缩数据之目的.下面是利用坐标变换去除相关的例子,行相邻的两个采样值X1.和X2,若各用3比特编码,则各有8个幅度等级,于是两个采样值的合成可能性共有8X8=64种,如图2T1所示。
39、横坐标表示X1.的8种可能等级.纵坐标表示x2的8种可能等级.考虑到样值的相关性.X1.和x2同时出现相近幅度的可能性最大.统计表明,合成可能性往往落在图中虚线所包围的区域内.如果将坐标轴旋转45,到和坐标系,则它们的合成可能性就落在坐标轴附近,不管帕度在O到7的可能等级间如何变化,的幅度始终只在较小的范用内变化.这意味着和的相关性及小了.因此通过这种变换.就可以得到一组除去了部分相关性的输出样值.如施所述,预测编码主要是在时域上进行,而变换编码则主要是在变换域上进行.通过变换操作除去由于坐标轴选择不当而引起的相关性,且有可能将班以处理的各种小局部相关集中到一起处理。交换一码方法有两个量明显的
40、特点I一是在频域上信息是按短谱旎fit与颊率分布排列的,只要对频域平面进行合理Ift化就可以得到较高的压缩效率.变换就是寻求坐标轴的最优选择,二是与预测等其他方法相比,变换编码具有较高的计算耳朵度,六、通用视频图像压缩编码标准MPEG2(H.262)()MPEG-2标准MPEG2标准的编号为ISeHECI3118,是-种既能慈容MPEG/标准,又能满足高分辨率数字电视和高分辨率数字达星接收机等方面要求的技术标准,它是出ISo的活动图像1.;家祖和ITU-TS的15研究处于1994年共同制定的,在ITU-TS的协议系列中,被称为H.262.制定MPEG2的初史是得到一个针对广播电视质此CCIR6
41、01格式的视频信号的压缩编码标准,但实际上最后得到个通用的标准,它能在很宽的范困内对不同分辨率和不同输出比特率的图像信号有效地进行编码,在图像格式方面,有可能对诸如标准清席庆电视、高清晰度、隔行扫描、顺序扫描等各种分辨率和信号形式的影像进行编码.在声音格式方面,它扩充了MPEG-I的功能,乱一种多通道/多哈吉的世白编码.其系统格式所现定的多路笈用方式不仅能适应可忽视播误的环境,而且也能适应广播之类不能忽视错误的环境。另外,它还规定了单一节目和多节目的多路红川/同步方式.MPEG2标准主要分为四部分.第一部分是系统.该部分说明了MPEG-2的系统编码层.它定义了视频和音频数据的红接结构和实现实时
42、同步的方法。第:部分是视频。此都分说明了觇频数据的编码去示和理建图愎所需要的解码处理过程.第三部分是音版.此部分说明/音版数据的第码表示.第四部分是一-致性测试.此部分说明了检测编码比特流特性的过程以及如何测试上述(部分所要求的一致性.(一)MPEG-2与MPEG-I的对比MPEG-2XjMPEG-I作了次要的改进和犷充,主要我现在下面几个方面:1 .图像格式MPEG-I只能处理顺序扫描图像,而MPEG2不仅能处理坂序扫描图像,还能处理隔行扫描图像.另外,在色卷格式方面,MPEGJ只能支持4:2:0的模式,即色信号的取样模式无论在水平方向,还是垂直方向上都是亮度信号样点数的1/2。MPEG-2
43、还可支持4:2:2和4:4:4模式,前者色信号的样点数在垂直方向上与亮度信号相同,只在水平方向上是亮度信号样点数的1,2:后者的色信号的样点数与亮度信号则完全相同。也就是说,MPEG2可处理几乎所有的图像格式,2 .图像质由于能适应分种图像格式和具有高质房图像编码所蜀的技术,MPEG-2可提供比MPEG-I史高的图像质ftO3 .码/解码的砥迟与MPEGJ一样,MPEG2可提供1图像物、P图像他和B图像帕“另外,在原图像为隔行扫描情况卜,,还可提供以帧为端码单位的帧构造和以场为编码单位的场构造(MPEG-I只支持帧构造),即除了在低延迟模式下只取I和B图像帧外.在原图像为隔行扫描情况下还可用场
44、构造这样的小延迟方式.4 .可伸!的分层编码方式这是MPEG/所没有的功能,MPEG2提供4种可伸缩的分层编码方式;空间分层编码,时间分层编码,信噪比分层编码和数据分割涮码。这几种分层编码既可单独使用,也可姐合使Fh5 .灵活性MPEG-2在编码器和解码涔的构成方面有很大的自由度,但某种程度的制约也是必要的,因而引出了类(Profi1.e)和等级(1.eve1.)的概念,以此来确定编码零和解码的等级规范.6 .兼容性MPEG*2谙法完全包含了MPEG-I语法,因此具有对MPEGI的兼容性.另外,使用空间可伸缩性.可将MPEG-I的比特液与MPEG-2的比特流混合传送.7 .特技方式MPEG-2
45、能好提供比MPEG-I更多的特技方式.8 .反震41码/解码对图像奥的影响MPEG-2提供了编码高质出图像的多种方法,能在反更进行编码和解码的情况下确保图像质量.9 .抗管能力在比特海传送等过程出现档课的情况下,MPEG-I不能提供有效的消除秘误的方法.然而即使比特流在异步传输模式中传输,MPEG-2也可通过解码器提供浦除错误的方法.10 .MPEM2可适应各种图形格式.如NTSC制式的4:3显示和HDIV的16:9图像.故可将16:9图像的,部分与4:3显示的信息泯合在一起传送。七、低比特率音视频压缩编码标准MPEG4(一)MPEGY标准及特点MPEG4是1998年I1.月正式公布的国际性标
46、准,其标准的编写为1SOI44962,MPEG4的初史是制定一个通用的低码率(NKbZS以下的书频/视频压缩编码标准,并打算采用第二代压缩漏码算法,以有效地支持收低码率的应用.但是第二代压缩编码算法在MPEG-4工作组预定的时间(1997年)内似乎还不够成然,因而它的目标后来转向支持当时的MPEG/、MPEG2标准尚未支持的那些应用,即支持用于通信、访问和数字视听数据处理的新方法(特别是基于内容的)。如移动通信中的声像业务、与其它多媒体数据的集成和交互式多媒体服务等.考虑到低损耗、高性能技术提供的机会和面临迅速扩展的多媒体数楙阵的挑战.MPEGT提供了巩活的框架和开放的工具集,这些工具将支斑一
47、些新型的和常规的功能MPEG-4可使用户实现音频觇频内容交互性的多种形式,以及以一种熔体的方式将人工的和自然的音频和视频信息溶合在一起.与MPEG-kMPEG-2和比MPEG-4最突出的特点是采用基于对象的编码理念,即在编码时将一幅景物分成若干在时间和空间上相互联系的视频音频对象分别编码后,再经过现用传输到接收端,然后再对不同的对象分别解码,从而组合成所需要的视频和音频.MPEGU采用是基于内容的压码方法.它突破了MPEG-kMPEG-2基于块、像素的图像处理方法,而是按图像的内容如图像的场景、画面上的物体(物体1,物体2,)等分块,即将感兴趣的物体从场景中钱取出来,称为时象或实体,MPEGT
48、便是基于这些对象或实体进行端码处理的,对每一个对象的编码形成一个对象码流层,该层码漉中包含籽对型的形状、尺寸、位置、纹理以及其它方面的他性.一幅图像编码所形成的码流就是由系列这样的对象层码流构成,“对象层”可以直接进行存取操作,例如,可以有选择地只对其中的几个时象解码和显示,或对其中的某个对象进行缩放、移位和旋转等操作后再解码显示,或增加僚图像中没有的对象等.此外,MPEG-4还具有高效压缩、基于内容交互(操作、编辑、访问等以及聪于内容分级扩展(空域分级、时域分级)等特点,为了具有基于内容方式表示的音视频数据,MPEG-4引入了视听对故AVO(AudMVideObKCt)的摄念.AVo的构成依撷于具体应用和系统实际所处的环境,它可以是一个没有背景的说话的人,也可以是这个人的语音或段背翅音乐等