微博

QQ

数字电视转换设计指南(Ⅲ)

2005-04-07 美国安维信公司(NVISION Inc.) 依马狮网


    本讲讨论多声道音频
    
    一.管理音频
    现有的广播设施大都没有准备好处理多声道声音。北美绝大多数设施为模拟立体声,它们用于多声道节目是不够的。不过,所有这些设施能够而且通常也是这样做的,即通过采用Dolby Surround Pro Logic编码的节目而在市场上有一席之地。Dolby Surround是一种矩阵编码处理,允许双声道设施处理4声道的节目。只要声道—声道平衡和相位响应是一致的,此双声道矩阵编码信号(常被称为Lt、Rt或左和及右和)与立体声模拟信号通路和存储设备完全兼容。配备了立体声电视接收机和Pro Logic解码器的听众可得到Dolby Surround编码节目的一个左、中、右和单声环绕声表现。这允许几乎任何电视台在它们的市场有环绕声的一席之地。
    将音频设施从双声道模拟信号效能改造为基于AES/EBU的路由和分配系统是有意义的。数字信号非常健壮,并且不受模拟设施中常见的许多“手指问题”的影响。一旦信号被数字化时设定了信号电平,它就保持在该电平不变。机器到机器传输也是也是不受增益变化和声道间增益差别影响的。由于左和右声道在相同的数据流内运载,此音频对的一半不会丢失,如果它被不正确地修正也不会将其相位倒置。这种一致性使AES/EBU信号特别适合于在整个设施内传输Dolby Surround信号。

    二.音频码率压缩
模拟和数字电视广播的一种主要区别是,如果要使音频和视频的组合信号适应可用的频谱(6 MHz或从不同的观点19.4Mb/s),那么音品和视频的数据率都必须得到显著降低。音频数据率必须在不损失主观质量的前提下,从约4.8Mb/s降低到384kb/s。以下对数字音频码率压缩工作方式的解释仅仅触及此处理的最基本方面,是想给读者提供该处理的一个直观的感觉,而非对此处理作详尽的分析。码率压缩事关量化噪声管理的一切。在线性系统中,为使量化噪声保持在一个可接受的水平下(此例为低于最大信号电平约96dB),16比特分辨率被视为要使用比特的实际最少比特数量。如果我们想用较少的比特表示信号,我们必须找到一种处理增加的量化噪声级的方式。幸运的是,人类听觉处理提供了若干实现此种方式的机制。
    第一种是基本听觉阈。与中频相比,人耳在低频和高频的灵敏度较低。令码率压缩可行的人耳第二种特征通过审视内耳结构可以得到理解。耳蜗是一个螺旋形的锥形通道,基膜沿着其长度或多或少地径向扩张。声音从外耳传导到耳蜗内的流体,在此其传播距离是基膜的长度。不同频率成分的声音振动基膜方向不同位置的毛发细胞,刺激听觉神经。毛发细胞的频率相关运动使人耳的工作像一台频谱分析仪。高电平的频率成分将不仅振动对特定频率敏感位置的毛发细胞,而且也振动相邻的毛发细胞。此在一个特定频率之外的“扩展”的响应可以压过或掩蔽对其它较低电平的响应。相对大声的声音掩蔽较低电平的声音通常由多频率集和电平相关的“掩蔽曲线”描述。如果一台粗量化器产生的量化噪声可以被限制在接近被量化(或编码)的信号成分的频谱区域,而且如果该噪声足够低,落至被编码信号的掩蔽曲线之下,那么听众将不能听到量化噪声。
    复杂的节目信号被转换到频域,而且计算不同信号成分的掩蔽曲线。掩蔽和听觉阈曲线(以及其它类似的现象)被叠加在节目信号频谱上。这决定可以被节目信号掩藏的量化噪声电平上的限度。编码器接着能作出量化器的粗量化度的决定,或将指派给节目信号每个频率分量的比特数。
    恢复的节目现在不再具有PCM(线性)编码信号均匀的低电平本底噪声,但具有一个动态变化、由节目素材决定的属于节目信号一部分的本底噪声。码率压缩处理因而在音频信号上留下其特征。
    接受一个以前编码和解码馈送信号的编码器将作出与可被信号掩蔽的量化噪声量有关的决定。第二及后来的码率压缩处理增加的噪声将增添到由以前几代处理引起的噪声上,而且将上升到掩蔽曲线的限度。在某种程度上对比特将需大于供,而且不论编码器如何努力避免这种情况(如限制高频内容),噪声都将超过信号掩蔽它的能力,而听众将听到“编码人工产物”。在这种情况下,我们可以称处理已经用尽编码余量。
    一般来说,工作于低数据率的码率压缩系统没有很好地级联或连接在一起,原因在于它们必须工作在低编码余量上以实现低码率。欲级联工作的编码器必须工作于较高的编码余量上,而其它一切都是等同的,也必须工作在较高的数据率。

    三.缩混
    当前,电视必须处理单或双声道的节目素材。取决于接收机,节目或者照此出现,或者声道合成为单声出现。数字电视完全不一样,每个节目都将被许多不同的家庭接收机看见,取决于听众的要求,每个节目都能以单声道或6声道的声音出现。节目的类型和制作者的要求将决定音频将是否以1、2、4或6个声道制作。节目提供的声道有多少,广播机构才能传输多少,动态范围也完全是原来的。DTV音频系统必须能同时满足这些要求。这是创作和传输“一种规格适合全部”节目惯例的大变化。
    这种做法的关键是向接收机传输关于音频节目信号的一些信息,或元数据。这种元数据,与听众提供的关于可以再现声道的信息相结合,使接收机能缩混一个多声道节目至可以得到的声道数。

    四.响度控制
    当前的电视音频惯例是设法提供一种“一种规格适合全部”信号,单声或立体声节目素材用相对有限的动态范围制作,此动态范围适合于当前大部分系统提供的约20 dB峰值储备。
    节目到节目响度的变换始终是一个难题。当前,设法标准化节目主观响度的唯一方式是进一步(有时是彻底)减少节目素材的动态范围,提高平均声平,直到全部节目占据有效动态范围的顶部,从而有大致相同的响度。这需要限幅或削峰以避免过调制发射机,并留下极少(如果有的话)的小心构造的原始节目动态范围。
    ATSC声音系统采用另一形式的元数据,为听众提供均匀的响度。每种节目风格(不然就是每个节目)都将有特定的峰值储备要求,它规定素材的“平均声平”或响度落在有效动态范围内的位置。此地点可以由“对白范数”元数据参数确定。如果此对白范数和节目一道被传输到接收机,接收机则能在一个共同的响度级再现全部节目素材。在ATSC依从接收机的情况下,节目素材被衰减到-31dB和对白范数参数之差。如果此对白范数值是合适的,则全部节目素材将在削波电平下31dB被再现,并将以相同的响度呈现。
    由于当前没有测量响度的普遍接受的方式,此处理是主观的。这令对白范数值成为一种评价,但也允许不同风格的节目如它们应该的那样,具有不同的响度。

    五.动态范围控制
    当然,听众确实需要对节目的动态范围进行一些控制。例如故事片,响度往往有大变化,这可能完全不适于深夜收听。最佳的解决方案可能是让每个听众都能控制节目的动态,而不是像当前的习惯做法那样,迫使所有听众都有相同的有限动态范围。
    动态范围选择也是在元数据的帮助下才有可能实现的。此系统建立一个围绕着平均节目响度(由对白范数值规定)的约束区,其中没有进行任何处理。死区以上的声平可被降低,而以下声平则被独立地提升。此处理使节目最重要部分的响度(通常是对白)不受影响。听众根据其个别的要求,控制接收机将施加的压缩量,因而能聆听深压缩的节目,或聆听有完整的原始动态范围的节目。
    Dolby Digital编码器根据制作组选择的其中一种压缩档在信号链的末端产生动态范围控制元数据,这允许选择一种在艺术上恰当的压缩方式,而非目前采用的一种规格适合全部的技术。

    六.多声道层
    从双声道(模拟或数字)音频直接过渡到多声道音频并不容易。显而易见的途径是把现有设施升级到6声道(5.1声道音频的0.1声道之带宽为120Hz,但从信号分配的观点来看确实就是另一声道),并增加

NVISION

视听科技视频号 广告
发表评论