依马狮原创 2013.01.21

音频平衡的全新探索

Fraunhofer IIS 传播与制作

　　重大挑战　　在广电领域，许多来自听众和观众的投诉都与音频有关，除了节目与广告的音量存在差异以外，很多投诉是关于语音和背景音之间的平衡问题。语音清晰度可能给有...

　　重大挑战

　　在广电领域，许多来自听众和观众的投诉都与音频有关，除了节目与广告的音量存在差异以外，很多投诉是关于语音和背景音之间的平衡问题。语音清晰度可能给有听力障碍或非母语的听众带来困扰。而收听环境或播放设备所带来的影响，还可能进一步加剧这个问题。

　　对音频工程师来说，寻找语音和背景音之间的适当平衡是一件极其困难的事情。因此，更佳的解决方案，则是让听众根据个人选择、收听环境，以及听觉能力等需求，自行调节音频平衡。

　　一个有效的解决方案，就是由Fraunhofer集成电路研究所（Fraunhofer IIS）开发，名为“语音增强（Dialogue Enhancement）”的技术。该技术允许用户根据自己的喜好调节背景声音和语音之间的平衡。2011年，在温布尔登网球公开赛期间，Fraunhofer IIS和英国广播公司（BBC）对此项技术进行了首次测试。

　　基本原理

　　“语音增强”是针对单个声源进行高效传输的技术，并同时与单声道、立体声或5.1混合声道保持兼容。“语音增强”技术的基本思路是在一个混合的音频信号中描述不同部分，通过增强或减弱语音与混合音频信号中其他信号的对比，实现播放设备对音频平衡的调整。音频源可以是评论员的声音、体育场内的嘈杂背景，或专题片或电视剧中的语音、音乐以及特效。

　　“语音增强”编码器（图1）通过分析输入信号，产生一个单声道、立体声或包括所有这些信号的5.1混合声道。此外，编码器生成的参数描述了每个信号源与所有其他信号源之间的关系。这些参数是以选时和选频方式生成的。

音频平衡的全新探索

图1 “语音增强”系统结构图

　　混合的输入信号既可以自动生成，也可以由音频工程师进行外部控制。混合信号由一个音频编解码器（如MPEG-4 AAC或HE-AAC）进行编码。参数端信息流则被嵌入已编码的音频比特流中。

　　与将所有单音频信号源进行独立传输相比，混合传输加端信息传输的效率要高许多，因为表现在每个参数域中的音频信号源都只会轻微增加整体比特率。音频比特流在接收端被解码，“语音增强”解码器使用参数比特流的描述数据，继续对混合信号进行处理，从而实现对音频信号源的访问。

　　通过这种方式，用户可以单独调整每个音频信号源的音量，从而可以提高诸如对话或体育评论等声音的清晰度。

　　该技术与现有的传输和播放设备完全兼容。无法解码参数端信息的设备将忽略这些参数端信息，正常播放混合信号。

　　BBC 广播第五频道 - 温布尔登网球公开赛期间的应用实验

　　“语音增强”实验是在2011年温布尔登网球公开赛期间的BBC广播第五频道（Radio 5 Live，R5L）和BBC广播第五频道体育特别节目（Radio 5 Live Sports Extra ，R5LSE) 中进行，观众通过广播第五频道网站访问相关内容。这次实验称为“NetMix”，用来简要概述实验内容（该标题未在欧洲使用过），主要面向于在办公室工作，只能访问联网的网球迷们。

　　在温布尔登的实验部署

　　“NetMix”实验需要两处音频的传送：第一处是中央球场（Centre Court）的传送（立体声FX），第二处是广播第五频道的评论传送（单声道）。场地立体声FX传送源来自于裁判席的一对同步交叉麦克风。

　　评论音频来自于BBS广播第五频道现场的评论席，音频在在进入总调音器前，被输入到NetMix系统。要创建并监控两种信号源（场地FX和评论），NetMix还是需要由声音监控人员（Sound Supervisor）来平衡用于默认混合编码输出流的场地与赛事评论的两种传输（或源）。在这里，声音监控员的职责与以往不同，因为音频平衡功能已由观众处理。但是音频传输仍然需要专人在比赛开始时调整归零，而且当评论员和/或观众在比赛期间变得更加兴奋时，还需要调整相关水平。

　　当赛事未直播时，例如比赛间隙，背景声音则改为赛场通知的录音。这样观众的音量控制器总表现出一些淡入淡出的交叉效果。

　　随后，NetMix试验输出操作员将立体声场地FX和单声道评论这两个源传送到Fraunhofer编码器中。该编码器集成在PC平台上作为一个实时应用程序。编码器应用集成了上文中所描述的“语音增强”编码器和音频编码器功能。此次实验中以下列方式配置编码器：

　　·适应范围：+/- 12 dB。与缩混（downmix）相比，观众能够增强或衰减12 dB评论源。

　　·比特率：192 kbps（每秒千比特）用于已编码的音频流（AAC编码缩混和嵌入到AAC比特流中的参数端信息）。‘

音频平衡的全新探索

图2 显示由NetMix试验到观众的信号与系统图

　　·比特流格式：HTTP 上的ADTS，适用于兼容Shoutcast的流媒体。

　　打包的编码器输出流通过HTTP连接被推送到StreamUK内容分发网络。StreamUK接到指令向英国用户提供地域锁定服务，就是为了限制BBC在该公开赛上的权利。

　　NetMix播放器

　　实验过程中，一个特殊的PC软件播放器提供下载。该播放器包括一个Shoutcast客户端、一个AAC解码器、一个“语音增强”解码器和渲染器。用户屏幕界面中的滑动条可以控制音频的混合。滑动条的零位为默认混合，增强赛事评论为正值，减弱赛事评论、让现场声音更大为负值。滑动条范围于“-3”和“+3”之间，用于±12 dB的适应范围。在随后的调查中也应用该刻度值，向观众询问其偏好的混音值，即混音滑动条的位置。

　　结果

　　广播第五频道网站和NetMix播放器均有一个按钮链接到一项在线调查，该调查是由BBC市场与观众部门（BBC Marketing & Audiences）和eDigitalResearch公司联合展开并进行分析的。如同寻常的嵌入式调查一样，本次的调查反响并不大。NetMix播放器下载累计约1200次，只有98名听众完成了此次调查。

　　调查结果显示：超过72％的听众同意或非常同意这种技术将有利于广播， 84％的人同意或非常同意该技术还将有利于电视。另一个有趣的发现是，并非所有听众都选择增强评论声音，实际上，调查数据显示听众对于“音量控制器”位置的喜好分布相当均匀，并有两个峰值，如图3所示。

音频平衡的全新探索

图3 听众偏好的“音量控制器”位置分布呈现出两个峰值，分别位
于 “音频平衡”位置（=“0”位置）的两侧

　　总结

　　这是一项复杂且具有挑战性的实验，需要BBC诸多团队（包括制作、实况转播、工程、网络、法律、体育权利和受众研究）协力进行。实验证明，“语音增强”编码能提供一个切实可行的技术，在某种程度上解决音频收听的问题，帮助观众理解并从中受益。

　　温布尔登网球公开赛实验证明了该技术的可行性，虽然听众调查完成的样本相对较少，但它明确表明了听众对这样一个工具所带来好处的认可。调查结果还表明，“语音增强”技术带给听众的好处，可以为其制作方面的额外要求买单。

　　Fraunhofer IIS目前正在与不同的广播公司和内容提供商讨论其他实验，以进一步对这些问题进行调查研究。

　　2012年，在美国拉斯维加斯召开的美国国家广播协会（National Association of Broadcasters, NAB）展上，Fraunhofer IIS就展示了“语音增强”和温布尔登实验，作为预展技术。其间，“语音增强”技术荣膺美国国家广播协会颁发的2012年度NAB技术创新大奖，以表彰该先进技术典范。

　　关于Fraunhofer

　　除了“语音增强”技术，Fraunhofer IIS还提供有关数字广播的各方面服务，包括：多路设计、条件接收、实时硬件验证的实施、商业接收器和发射设备、用于消费者无线接收器的组件、数据广播系统、标准化、听众营销研究、多媒体广播应用、音频编码（MP3、AAC），以及通过IZT-GmbH进行商业设备的开发、生产和部署。作为全球最大的研究和开发机构之一，Fraunhofer IIS始终致力于地面和卫星数字广播系统的设计和实施。B&P

原创声明 本篇内容为依马狮视听工场原创文章，未经授权禁止转载。详情见转载须知。