
先进的视听技术令我们今天的生活更加多姿多彩,作用于机器和产品幕后的技术同样功不可没,正是有了运行于芯片之中的那些在界面上看不见的东西,多媒体信息才能够有效地进行存储和传输。以下将从三个部分阐释这些“幕后的技术”。
视听信息基本情况及应用
视听信息主要是指与主观感知相关的几大媒体。
音频是一维的时间信号,带宽一般在20kHz。在实际应用过程中音频还存在声道问题,涉及到单声道、多声道、立体声和环绕声。
视频是一个数据量更大的媒体,是时间上的二维信号(运动图像序列),其分辨率也是在不断进化中。早期的多媒体通信时代,人们会在简单的终端上传送分辨率仅为128×96的小图像。到今天,随着3D电视、多视点视频、全景视频的出现,视频信号的数据量也成倍增长。
语音信号是一维的时间信号,带宽较窄,为单通道。
图像则是二维空间信号,即静止图像。
四大主要信源应用广泛,包括:消费类电子、广播电视、影剧院、演唱会、数字家庭、多媒体播放器以及多媒体通信实时音视频通信、视频会议、新闻采访等等。为了能使其有效地存储、传输和播放,我们需要对其进行数字处理,这也就引出了下面所要讨论的话题。
视听信息的压缩编码
之所以要对视听多媒体信源进行压缩编码,是因为信源数据量特别大,以现有的存储媒体或者通信信道很难直接进行传输。以音频为例,标准的CD音频数据量为44,100Hz×16bit×2声道=1.4Mbit/s,DVD音频为48,000Hz×16bit×5.1声道=4.6Mbit/s,还可能有采样速率为96,000Hz、量化精度24bit的专业级音频等,由此而产生的数据量更大。视频作为标准的电视信号有像素维度,因此数据量会更大,CCIR的数据量为720×576×24bit×25=248.9Mbit/s,HDTV为1,920×1,080×24bit×25=1,244.2Mbit/s,UHDTV的分辨率达到3,840×2,160甚至更高的7,680×4,320,数据量呈级数增长。而随着3DTV、多视点视频、全景视频等新技术的出现,数据量还在不断增大。语音方面,窄带语音数据量为8,000Hz×16bit=128Kbit/s;宽带语音为116,000Hz×16bit=256Kbit/s。图像方面,低分辨率图像数据量为1,024×768×24bit=18.8Mbit/s,高分辨率图像为4,320×3,240×24bit=335.9Mbit/s。

压缩编码的目的就是减少存储需求,提高存储媒体利用率;降低信息传输速率,提高信道利用率;同时,还可以利用压缩节省的数据,改善传输可靠性和安全性。压缩编码之所以能够实现,是因为信源本身具有两种多余的东西可以用来对数据进行压缩,一种是多余度,一种是不相干度,压缩编码的思路就是消除这些多余的信息。
在模拟信号中如相似性、相关性比较强,即表明它的数据是多余的。比如,在视频信号相邻帧之间的相似性、图像相邻像素间的相关性、音频信号中的周期性和语音信号中的短时平稳性等,都表明它们的数据中间很多数据实际上是多余的,可以通过数字处理的方式把它拿掉,实际上这些具有多余性的数据在我们传输的信息中是没有必要的。
另外一个就是不相干度,这主要是针对我们主观的听觉和视觉系统。对于麦克风或摄像头采集到的视听多媒体数据,我们的主观感知系统并非能够全部收到和感知到,所以可以消除对主观感知没有用的那部分数据。通过这两个方面的处理,将信源空间本身的大量数据压缩以后就只剩下部分有用的数据,然后再进行数据的编码、传输或者存储。但前提条件是没有主观感知误差,或者主观质量在可以接受的范围之内做信源编码和数据的压缩。
在这四大媒体中,它们的压缩程度,或者说我们能够做到什么程度,也是不一样的。下图以横坐标表示压缩比,越往右边压缩得越多,纵坐标代表压缩编码质量,虚线表示理想的目标:即对信源进行压缩的时候希望质量并不下降,但是这也只是一个理想化的状态,实际上压缩的过程中一般都会有信息的丢失,所以质量是一定要下降的,但下降的程度也会有所不同。从压缩比与质量的关系来看,视频图像在相同的压缩比之下,质量下降相对较小;而听觉系统包括语音和音频,由于耳朵对误差比较敏感,因此质量下降也相对更严重。
有几种方法可以实现编码的压缩:一是无失真压缩,信源本身如果在概率分布上呈现非等概特性或具有重复出现特性,就可以利用无失真的做法对它进行压缩;二是有失真压缩,这就需要丢掉信源的多余度或不相干性,虽然这种方式压缩数据后,其物理信号上是有失真的,但是如果压缩编码做得好,在主观感知上就不会感到失真,或者失真在可以接受的范围之内。在现实应用中,实用的压缩编码算法都是把这两者相结合实现的混合压缩编码方式。

现有的一些标准算法就基于这些方法之上,比如说MPEG-1、MPEG-2、MPEG-4。还有国际电信联盟的标准,如关于图像的H.264、H.263,JPEG2000亦属于图像编码。语音编码方面的标准有G系列的G.729和G.723.1标准。音频编码有AC-3、DTS、DRA、AAC、LPCM。在第三代移动通信里还会有一系列的语音编码和音频编码,如AMR、AMR-WB、EAAC、EAAC+。在这些标准算法下,有各种各样的质量,不同的压缩比即体现不同的压缩范围。
视听信息的版权保护[page]
同模拟信号相比,上述四大媒体在数字化之后优势显著,既能够保证质量,在复制或者传输的过程中不会因为拷贝而导致质量下降,同时存储和传输比较方便,应用比较灵活。在模拟信号里无法实现的处理在数字信号中是可以做到的,例如如果图片拍摄不理想可以利用数字化进行修补,音频录制有噪声,可以进行降噪处理。但同时当遇到和版权相关的问题时,数字化也体现出其不足之处,由于容易被拷贝、且拷贝与原始数据信息完全相同,所以易被盗用、篡改和扩散。目前市场上缺乏防止非法拷贝和扩散的有效手段,而且仅凭法律手段也很难保护数字内容版权,所以实际应用中就要对这种技术做一个补充,来有效保护多媒体信息。否则就会对整个数字视听多媒体产业造成冲击,阻碍其发展,解决之道就是借助于技术手段,推行新的数字版权保护技术。

版权保护的目的包括:所有权和版权的保护与控制;内容保护和完整性核实;认证和鉴定;授权使用和非法使用的追踪和监控;防盗版、防拷贝、防扩散。具体的保护方法有很多种,其中,数字水印技术,就是把版权的信息、所有者信息利用数字的方法嵌入到内容当中,当数字内容被盗用或者被拷贝的时候,可以通过数字水印技术来确认所有权。数字指纹技术就是把用户信息及其本次商业行为嵌入到数字内容里,具有唯一性,当内容发行商把内容发售给每个用户的时候就会用到数字指纹技术,令内容仅可供自己使用,而不能再拷贝给别人。数字签名技术则通过单向的函数,把数字内容里类似于摘要性的东西提取出来,然后存放到商业网的某一个地方,也可以直接附带到内容里,它也是有唯一性的。此外还有数字认证技术、数字版权保护等。
数字媒体由于本身数据量巨大,在使用过程中需要先压缩再进行传输,不进行数据压缩而存储和传输的情况极少。一般是数据经过编码后进入信道,然后将其解码进行传输。在过去的版权保护方式中,版权保护的信息可以直接插入原始数据中,然后交给用户解码后使用,如有需要用户可以去验证数字产品的归属权。但是如果产品一旦交给别人,或者发生问题,虽然可以提取版权信息来进行追踪,但是在很多情况下,我们的人力、物力也很难做到。而作为盗版用户来说内容里面有没有水印并不重要,比如盗版DVD只要能看就行,并不会理会是否有版权保护的信息。所以在这这种情况下,在原来有的保护方法对这个盗版不起作用且我们也难以跟踪的时候,必须想办法阻止盗版者达到观看目的。

我们设计了针对四大媒体原始视听信息的基于信号处理的版权保护技术。如左图所示,原始视听信息(Ds),客观质量(Qo),主观质量(Qs),使用数字信号处理的方法进行预处理,直接处理最原始的信号,形成一个已经处理过的新媒体(Dp),这个时候客观质量可能要下降(Qp),但是主观质量没有变,听起来、看起来与原来是一模一样的。但通过计算会发现里面已有变化,保护信息已插入其中,用户便可以随便传输和使用。
已经处理过的信号在经历压缩编码的时候,由于压缩编码导致了一些误差,解码后其信息数据、客观质量乃至主观质量都会发生变化。其中主观质量跟原来相比下降严重,因此通过这种方法插入保护信息以后就可以保护原始数据。首先在做信息传输的时候肯定要进行压缩编码,当用户第一次使用时,压缩编码以后对方把高清信息记录下来,在解码以后的信息中再插入保护信息,这样在转码和再进行压缩的时候还是会出现问题。这种算法的好处在于不用人为来控制它,在内容发行后,如果用户想通过解压缩的方式来进行盗版,或者再利用的时候就会遇到麻烦。同时,如果需要,原始视听信息的制造者可以提供数字处理手段将在预处理时已经插入的版权保护信息提取出来,以证实其版权或所有权。