微博

QQ

音频平衡的全新探索

2013-01-21 Fraunhofer IIS 传播与制作


  重大挑战

  在广电领域,许多来自听众和观众的投诉都与音频有关,除了节目与广告的音量存在差异以外,很多投诉是关于语音和背景音之间的平衡问题。语音清晰度可能给有听力障碍或非母语的听众带来困扰。而收听环境或播放设备所带来的影响,还可能进一步加剧这个问题。

  对音频工程师来说,寻找语音和背景音之间的适当平衡是一件极其困难的事情。因此,更佳的解决方案,则是让听众根据个人选择、收听环境,以及听觉能力等需求,自行调节音频平衡。

  一个有效的解决方案,就是由Fraunhofer集成电路研究所(Fraunhofer IIS)开发,名为“语音增强(Dialogue Enhancement)”的技术。该技术允许用户根据自己的喜好调节背景声音和语音之间的平衡。2011年,在温布尔登网球公开赛期间,Fraunhofer IIS和英国广播公司(BBC)对此项技术进行了首次测试。 

  基本原理

  “语音增强”是针对单个声源进行高效传输的技术,并同时与单声道、立体声或5.1混合声道保持兼容。“语音增强”技术的基本思路是在一个混合的音频信号中描述不同部分,通过增强或减弱语音与混合音频信号中其他信号的对比,实现播放设备对音频平衡的调整。音频源可以是评论员的声音、体育场内的嘈杂背景,或专题片或电视剧中的语音、音乐以及特效。

  “语音增强”编码器(图1)通过分析输入信号,产生一个单声道、立体声或包括所有这些信号的5.1混合声道。此外,编码器生成的参数描述了每个信号源与所有其他信号源之间的关系。这些参数是以选时和选频方式生成的。

音频平衡的全新探索

图1 “语音增强”系统结构图

  混合的输入信号既可以自动生成,也可以由音频工程师进行外部控制。混合信号由一个音频编解码器(如MPEG-4 AAC或HE-AAC)进行编码。参数端信息流则被嵌入已编码的音频比特流中。

  与将所有单音频信号源进行独立传输相比,混合传输加端信息传输的效率要高许多,因为表现在每个参数域中的音频信号源都只会轻微增加整体比特率。音频比特流在接收端被解码,“语音增强”解码器使用参数比特流的描述数据,继续对混合信号进行处理,从而实现对音频信号源的访问。

  通过这种方式,用户可以单独调整每个音频信号源的音量,从而可以提高诸如对话或体育评论等声音的清晰度。

  该技术与现有的传输和播放设备完全兼容。无法解码参数端信息的设备将忽略这些参数端信息,正常播放混合信号。

  BBC 广播第五频道 - 温布尔登网球公开赛期间的应用实验

  “语音增强”实验是在2011年温布尔登网球公开赛期间的BBC广播第五频道(Radio 5 Live,R5L)和BBC广播第五频道体育特别节目(Radio 5 Live Sports Extra ,R5LSE) 中进行,观众通过广播第五频道网站访问相关内容。这次实验称为“NetMix”,用来简要概述实验内容(该标题未在欧洲使用过),主要面向于在办公室工作,只能访问联网的网球迷们。

  在温布尔登的实验部署

  “NetMix”实验需要两处音频的传送:第一处是中央球场(Centre Court)的传送(立体声FX),第二处是 广播第五频道的评论传送(单声道)。场地立体声FX传送源来自于裁判席的一对同步交叉麦克风。

  评论音频来自于BBS广播第五频道现场的评论席,音频在在进入总调音器前,被输入到NetMix系统。要创建并监控两种信号源(场地FX和评论),NetMix还是需要由声音监控人员(Sound Supervisor)来平衡用于默认混合编码输出流的场地与赛事评论的两种传输(或源)。在这里,声音监控员的职责与以往不同,因为音频平衡功能已由观众处理。但是音频传输仍然需要专人在比赛开始时调整归零,而且当评论员和/或观众在比赛期间变得更加兴奋时,还需要调整相关水平。

  当赛事未直播时,例如比赛间隙,背景声音则改为赛场通知的录音。这样观众的音量控制器总表现出一些淡入淡出的交叉效果。

  随后,NetMix试验输出操作员将立体声场地FX和单声道评论这两个源传送到Fraunhofer编码器中。该编码器集成在PC平台上作为一个实时应用程序。编码器应用集成了上文中所描述的“语音增强”编码器和音频编码器功能。此次实验中以下列方式配置编码器:

  ·适应范围:+/- 12 dB。与缩混(downmix)相比,观众能够增强或衰减12 dB评论源。

  ·比特率:192 kbps(每秒千比特)用于已编码的音频流(AAC编码缩混和嵌入到AAC比特流中的参数端信息)。‘

音频平衡的全新探索

图2 显示由NetMix试验到观众的信号与系统图

  ·比特流格式:HTTP 上的ADTS,适用于兼容Shoutcast的流媒体。

  打包的编码器输出流通过HTTP连接被推送到StreamUK内容分发网络。StreamUK接到指令向英国用户提供地域锁定服务,就是为了限制BBC在该公开赛上的权利。

  NetMix播放器

  实验过程中,一个特殊的PC软件播放器提供下载。该播放器包括一个Shoutcast客户端、一个AAC解码器、一个“语音增强”解码器和渲染器。用户屏幕界面中的滑动条可以控制音频的混合。滑动条的零位为默认混合,增强赛事评论为正值,减弱赛事评论、让现场声音更大为负值。滑动条范围于“-3”和“+3”之间,用于±12 dB的适应范围。在随后的调查中也应用该刻度值,向观众询问其偏好的混音值,即混音滑动条的位置。

  结果

  广播第五频道网站和NetMix播放器均有一个按钮链接到一项在线调查,该调查是由BBC市场与观众部门(BBC Marketing & Audiences)和eDigitalResearch公司联合展开并进行分析的。如同寻常的嵌入式调查一样,本次的调查反响并不大。NetMix播放器下载累计约1200次,只有98名听众完成了此次调查。

  调查结果显示:超过72%的听众同意或非常同意这种技术将有利于广播, 84%的人同意或非常同意该技术还将有利于电视。另一个有趣的发现是,并非所有听众都选择增强评论声音,实际上,调查数据显示听众对于“音量控制器”位置的喜好分布相当均匀,并有两个峰值,如图3所示。

音频平衡的全新探索

图3 听众偏好的“音量控制器”位置分布呈现出两个峰值,分别位
于 “音频平衡”位置(=“0”位置)的两侧

  总结

  这是一项复杂且具有挑战性的实验,需要BBC诸多团队(包括制作、实况转播、工程、网络、法律、体育权利和受众研究)协力进行。实验证明,“语音增强”编码能提供一个切实可行的技术,在某种程度上解决音频收听的问题,帮助观众理解并从中受益。

  温布尔登网球公开赛实验证明了该技术的可行性,虽然听众调查完成的样本相对较少,但它明确表明了听众对这样一个工具所带来好处的认可。调查结果还表明,“语音增强”技术带给听众的好处,可以为其制作方面的额外要求买单。

  Fraunhofer IIS目前正在与不同的广播公司和内容提供商讨论其他实验,以进一步对这些问题进行调查研究。

  2012年,在美国拉斯维加斯召开的美国国家广播协会(National Association of Broadcasters, NAB)展上,Fraunhofer IIS就展示了“语音增强”和温布尔登实验,作为预展技术。其间,“语音增强”技术荣膺美国国家广播协会颁发的2012年度NAB技术创新大奖,以表彰该先进技术典范。

  关于Fraunhofer

  除了“语音增强”技术,Fraunhofer IIS还提供有关数字广播的各方面服务,包括:多路设计、条件接收、实时硬件验证的实施、商业接收器和发射设备、用于消费者无线接收器的组件、数据广播系统、标准化、听众营销研究、多媒体广播应用、音频编码(MP3、AAC),以及通过IZT-GmbH进行商业设备的开发、生产和部署。作为全球最大的研究和开发机构之一,Fraunhofer IIS始终致力于地面和卫星数字广播系统的设计和实施。B&P

Fraunhofer IIS 音频 平衡 探索

视听科技视频号 广告
发表评论