微博

QQ

AES69-2015:沉浸式音频的关键

2015-11-02 杰伊•耶尔瑞 传播与制作


  从音频技术从单身转换到立体声像那时起,似乎有一些听众一直在追求最有沉浸感的声像。四声道、环境立体混合声、杜比环绕声、DTS和杜比数字的出现都是为了满足为听众提供真正环绕的听觉体验的要求。

  虽然早期开发只是对音频,但没过多久采用如Fantasound和Cinerama等的系统,多声道音频就与电影联姻,而电视广播一直到上世纪80年代依然为单声。

个人体验

  现在在消费电子产品商店,经常可看到大屏幕电视配环绕声系统,但只是许多个人用蓝牙音响系统和大量高端头戴式耳机。事实上,环绕声和沉浸式声音的趋势看来是朝向个人而不是共享体验,这是由智能手机和手游系统所推动的。不过,这些装置上消费的很多内容依然来自媒体和广播制作公司。

  许多制造商很早就进入了沉浸式音频领域,但现在随着ATSC 3.0力图把沉浸式引入广播领域,AES提出了一个旨在确保沉浸式音频传输系统采用相同的空间音频信息交换文件格式的标准。

  在我们考察此标准之前,需要注意的是此标准把双耳听音提升为沉浸式听音的关键,这意味着此标准全都与头部及其存在的空间(真实或仿真)有关。

  双耳录音并不新鲜,典型的双耳录音方式是使用话筒置于双耳上的仿真头,目的是捕获人类将听到的音频。遗憾的是,人类头部本身是该声学空间内另一个客体,将自己修改我们听到的音频。

  根据许多可变因素(包括我们的头部在声场相对于声源的位置),声源可能在稍有不同的时间、以不同的声强和有点不一样的频率响应(取决于我们头部和双耳的形状)以及来自我们身体的反射/抵消,到达我们每只耳朵。

全在头脑中

  幸亏我们的大脑能够学习和适应我们的听觉,以称为头部相关传输函数(HRTF)的响应补偿。HRTF在两个脉冲响应:帮助我们定位声源的头部相关脉冲响应(HRIR)和允许我们找到房间内声源的定向房间脉冲响应(DRIR)的帮助下,是AES69的一个关键参数。

  如同其它AES帮助,此标准建立在其它产业集团所在的工作上,而不是确立冲突的标准和不必要地白费力气做重复工作。在这种情况下,工作基于ISO、ITU和IETF标准,并把netCDF-4作为数据存储格式。

  此标准很大程度上依赖于音频对象——游戏音频领域的一个重要部分,它对广播相当新,而随着我们越来越接近ATSC 3.0,将越来越多地看见它。AES69中的主要对象是“听众”——可能包含无限数量的接收器;“声源”——可能包含无限数量的发射器;以及“房间”。

  在任何一个特定的AES69文件中,只能有一个听众、一个源和一个房间。这些对象被置于两个确定它们空间内存在位置的坐标系中。整体坐标系允许空间内源和听众布置,而每个源和听众在整体坐标系内有其自己的局部坐标系,允许源内发射器和听众内接收器布置。

  发射器和接收器的指向性图在局部坐标系内确定。为帮助定向,定义了正交“View”(查看)和“Up”(向上)矢量,View在正x轴,而Up在正z轴。包含有一长串元数据参数,提供一个定义变量及它们的特征的额外方式,并且提供关于文件内数据的重要信息。

  正如人们所料,听众、接收器、房间和房间类型在元数据参数内描述,对外部应用做出了规定,包括针对它们的要求之元数据。有效的房间类型为自由场、混响室、小屋和.dae(提供至3D应用链路的数据交换文件)。全部信息存储在一个带.sofa(声学空间导向格式)扩展的netCDF-4二进制数据文件内。

  双耳音频不是没有问题和批评者。在某些双耳录音中源位置可能难以找到,侧方向声音最易确定,而前后方向声音有时似乎在听音位置本身。

  幸运的是,AES69-2015内众多的参数以及内建的扩展性,可能意味着此标准有足够的广度弥补双耳聆听的任何不足。

  迄今为止我聆听沉浸式格式的一个体验是DTS的Headphone:X演示,那是一次非凡的经历。音频源在演示间的音箱播放;然后我们被指示戴上耳机,音频重复播放。

  耳机音频听上去与来自音箱的几乎相同,达到我们都把耳机取下以确信的程度。当然,DTS人员有大量时间预先准备,在我们到达前调整设置,但尽管如此结果令人印象非常深刻。

  如果其它厂商的沉浸式系统也同样令人印象深刻,并且AES69-2015被用于系统间的交换,那么沉浸式音频世界将变成一个非常激动人心的聆听之地。

杜比 音频 AES69 沉浸式 杜比环绕声

视听科技视频号 广告
发表评论