本文简要描述现代处理因素,预测广播业者在低数据率环境下从模拟向数字音频转变时面临的挑战。
降噪和降哼声
在有损耗的编码/解码处理中,所有的噪声和哼声都消耗宝贵的比特,对接收到的音频内容价值则一点作用也没有。噪声和哼声对广播用有损耗编解码器一个相关的同时非常重要的非音频特性—辅助数据的传输有额外的影响。
如果该编解码器忙于处理非音频内容,那么对文本、视频广告、控制信令或数字广播的其它创收特性的更新换代就比较缓慢。
事实上,强大灵活的降噪也许是任何编解码之前发生的最重要的处理之一,不管其应用是存档、STL(演播音室至发射机链路)、激励器/接收机、新闻专线等。
降噪和降哼声系统本质上在透明到主动之间变化。
透明类降噪在存档和STL应用中最有用,这些应用中数据简化率相当低,而知觉透明度很高。
另一方面,在数据简化率很高且可听编码失真降低要比知觉透明度更重要的场合,主动降噪非常有用。
降低哼声同样重要。即使哼声根本不可察觉(这是消费环境的一个目的),它也压低编解码器的熵机会,使比特已经严重缺乏的状况雪上加霜。
音量管理
广播业者提供给听众最有价值的业务之一是音量规范化。
虽然这在车载音频中特别重要(由于固有环境噪声电平—路面噪声、飞机噪声等相当高),但它也极其有利于希望从其“经济”的音频系统中获得最多信息的普通听众。
广播业者为此使用高效和专业设计的音量管理处理来保持一个可靠的、严格定义的音量窗口。
知觉编解码器并不对过于积极主动的音量管理作出线性响应。普遍认为知觉编解码器对严重削波信号的响应极差。不太通晓的是大动态范围压缩可能对编解码器高效工作能力产生有害影响。事实上,过度“积极”的处理可能在两个方面损害编解码器的性能:时间掩蔽功能和熵机会。
时间掩蔽功能(TMF)是描述存在于响度瞬变过程前后的效应的术语。瞬变过程之后的声掩蔽称为后掩蔽。声掩蔽导致的瞬变称为前掩蔽。瞬时信号的高度影响掩蔽包络期。瞬变现象抑制对掩蔽时间期有不好的影响,削弱知觉编解码器掩蔽失真的能力。
熵机会可描述为内容能量包络中的快速过渡。它出现于相对“安静”的时期或散布在内容内的瞬时信号。熵机会是内容内的时期,在这些时期知觉熵PE(音频透明压缩基本限制的一个度量)最高。
知觉熵估计如下实现。首先对信号实施窗口限制(上下限幅),并转换到频域。然后应用知觉规则获得一个掩蔽阈值。最后,作出不引入知觉噪声(失真)条件下量化频谱所需的比特数的决定。在许多帧上构建一个直方图,可以获得PE测量值,然后选择最坏情况下的数值作为实际测量值。
“安静”时期的干扰或瞬变高度导致知觉熵的降低,削弱编解码器透明编码内容的能力。这并不意味着音量调整和峰值管理没有顾及到知觉编解码器。不过,它确实意味着必须遵循某些基本处理规则。“编解码友好”音量管理采用以内容的知觉“有效性”作为增益标准的智能调整。
除此之外,必须采用使增益变化(最大PE)与编解码融洽适应的弹道学技术。音量管理必须确定一个对TMF透明的窗口,该窗口将凭借适当的峰值控制保持最大容许音量。在TMF透明度约束和容许(且适当)的峰值控制之中将存在一种控制TMF透明窗的功能,以保持恒定的感觉音量。
声像控制
模拟立体声广播牵涉许多问题:(1)没有两个立体声内容是被“成像”为相同的东西;(2)多径损害邻频道稳定性和信噪比,使声像宽度不稳定及嘈杂;(3)消费者很少会在立体声“悦耳点”,在这地点上,他们可以体会稳定、精心制作的立体声像的全面效果。
为了向听众展现连续不断的娱乐内容,广播机构必须采用处理措施以管理音乐和广告内容的声像。这是一个苛求。
解决了与内容有关的声像稳定性问题后,播出一个稳定和即时的声像可能增加听众在多径条件下所具有的烦恼。在移动汽车中这导致快速扩张和崩溃的立体声像,而且可能是所有模拟立体声广播中最恼人的失真(参见图1)。
数字广播消除了所有由多径引发的邻频道不稳定性,这消除了多径导致的声像调制失真。适当的声像处理(并非增强)配合数字广播提供了进入空间环境的出色的立体声体验。
声像管理采用空间转码处理。空间转码在编码前除掉内容声像中的声像损伤、比特消耗。采用邻频道的判定性(通过前向传播网)和灵活性处理,能减少或除去感觉不相关的声像异常(长期L/R声强偏差、短期M/S偏移及长期M/S不平衡)。
通过判定性转码,设计者可以了解和预测信源编码和信宿解码的方式。采用对内容无感觉影响的方式,可以巧妙地改变立体声音乐内容以除去音乐内解码器不稳定导致的元素。
参量声像再解析
对于低数据率编解码,往往需要其它的处理。若无辅助设备,不需要的邻频道失真可能“暴露”在不够最佳的空间环境中。参量声像再解析对频谱进行空间再评估,替换各部分的声像。这可以在不必“扔掉”内容的条件下减少邻频道的过编码,提高编解码性能。
频谱管理
为确保内容流的质量和一致性,必须确定和保持某些知觉方面的目标。不同风格的音乐用不同的知觉期望吸引听众。维持一个总响度目标和动态范围被认为是一个众所周知的知觉因素。
其它两个知觉因素是广播的频谱和声像平衡。历史上用来描述频谱平衡的术语是“清晰嘹亮的”、“有冲击力的”、“温暖的”、“抑制的”等等。用来描述声像平衡的语言是“在前面”、“集中的”、“轻柔的”、“强力的”、“巨大的”、“声墙”等等。
这些术语中有些已被用于描述频谱和声像的复合相互作用(较轻柔意味着冲击力较小)。问题就在这里。感觉上此两个方面并非参量式,也就是说它们彼此相互作用。
建立同时适当地描述此两个方面的一个“图”胜过努力用参量独立表示它们。“频谱声像图”(SIM)描述频谱和声像在一可固定的时间间隔中的复合关系。此频谱声像图作为可编程的“目标”用于自适应频谱和声像管理处理。
适当的频谱声像图的原型模板可以得自于受到评论家喝彩的适当类型的音乐样本、成功的竞争对手广播或购自一适当配备业务的样本。制作总监PD或工程师则可以按照各自的口味容易地修改原型模板。
我们总体描述了用于在一个双信道、有限比特率的广播骨干网中传送典型广播内容的“广播链”处理考虑。
5.1声道环绕声
娱乐质量的、甚至于最完全受控的无多径干扰的立体声信号在消费者端可能被家庭或车中极不适当的空间环境重新(或进一步)劣化。
现在,环绕声音频系统是家庭影院不可或缺的组成部分。据消费电子协会(CEA)的资料,家庭影院正在推动组合音频系统设计;5.1声道环绕声是价格低至199美元接收机的一种标准特性。
关键是传送5