J. Mailhot
哈里斯公司广播通信部
(接上期)
其它压缩音频格式简要评述
与Dolby E系统不同,另一些压缩音频格式(MPEG音频、Dolby Digital、AAC-LC、AAC-HE等)被编排为不同于任何世界视频帧标准的时间间隔的接入单元(压缩音频帧)。表1显示目前使用的各种接入单元尺寸。

在制作中心发送预压缩音频,结果(对25Hz帧情形)示于图2。从表和图中可清楚地看到对准处不允许在视频帧边界上进行任意切换或编辑。

音频和视频的频率参考和同步
数字音频周期性地由基本上由话筒提供的模拟音频信号的样本组成。音频数字表现的频率保真度某种程度上由所用的取样率决定。AES-3标准允许有许多不同的取样率,而SMPTE-299嵌入标准强调把 “锁定(同步)到视频” 的48kHz取样作为“首选”。事实上,与视频同步的48kHz取样在所有电视应用中都是最常见和最恰当的做法,未能采用这种做法是预压缩音频处理中最大的问题源。记住此忠告,让我们详细地查看问题根据历史事实会出现过的几个案例。

图3表示一个典型的体育节目制作环境。音频设备处理所有的现场音频,制作一个5.1混音和一对LtRt立体声以及关于此混音的元数据。在控制室监测混音,最终用Dolby E编码以便返送到电视网。视频被单独处理,而两者在此流程的最后会合。Dolby E编码器从输入音频的取样率获得其频率参考(如果它没有锁定到别的东西)。如果音频设备的取样频率没有精确地频率锁定到视频参考系统,那么压缩音频将比视频帧率稍快或稍慢地漂移,而收集编码器将无法确切地混合这两个信号。

图4清晰地显示在音频链中增加一个参考信号以及一个取样率转换(SRC)步骤。此步骤如此重要,以至于它通常作为大部分Dolby E编码器的一个特性包括;当然,还需要一个正确的参考得到恰当的连接和配置。注意纵使此图忽略元数据同步,但如果此元数据是动态的话,同步元数据明智的。
一般说来,采用无论哪种必要的方式,在压缩音频前把音频取样率锁定到视频系统极其重要。
帧同步器有益
在大部分电视中心内,为了在切换前同步视频信号,使用了帧同步器。每种情况下,即使对于正常的PCM音频,问题“它如何处理音频?”很重要。大多数播出帧同步器提供某种类型的音频跟踪选件,它(如果正确购买和配置)包括某种类型的取样率转换,以便连接输入和输出取样率。对于PCM音频,这是经多年实际使用证明成熟的技术。

如果同步一个有预压缩音频存在的信号,“如何处理音频”变成一个极端复杂的问题。图5示出此情况的例子。
在这个例子中,卫星信号来自节目提供商,有一个HD节目和预压缩的Dolby Digital 5.1音频。本地操作员希望切换这个信号和其播出服务器上的本地插入式广告素材。为了节省预算,本地操作员推断既然输入节目的音频已经在输入卫星链路上被压缩,而插入式广告可在服务器内被安排已有压缩音频,本地操作员唯一要做的就是把输入信号对其设备同步,并且切换它们,就像输入信号为传统的PCM音频那样。
此运营商很快就意识到两个问题。第一,在卫星节目期间,观众投诉音频有爆裂声。这些爆裂声几乎每当帧同步器撤销或重复一个视频帧以便与本地电视中心同步时都出现。有些观众还投诉有大音像同步误差,而有些观众则仅仅投诉爆裂声。向厂商咨询后,该运营商能够购买帧同步器上所有恰当的功能和选件以正确地把预压缩的Dolby Digital音频同步到本地内部参考上,从而解决此问题。
在确信现在一切都没问题后,操作员开始把来自本地播出服务器的广告插入其新频道。同一批愤怒的观众又开始投诉音像同步误差和爆裂声回来了。操作员检查电视中心内所有设备的参考,可它们似乎全都正确。但问题依然存在。
这两个问题的根本原因都相同—压缩音频的接入单元之间和视频帧之间没有校准,没有很好的时间点切换视频和音频。帧同步器将跳过或重复全部视频帧,以便在本地参考时间输出它们的信号。对于与预压缩音频一起的音频跟踪,业内采取若干种方案:
·每当跳过或重复一个视频帧时,跳过或重复全部视频帧时间的音频数据。这适用于Dolby E解码器,原因是Dolby E解码器有一种屏蔽功能,使跳过帧时间听上去很好,而Dolby E接入单元与此视频帧对准。对于其它压缩音频标准,这在音频时间线内产生一个间隙,或更糟糕的是把一个或两个部分的音频接入单元放入下行信号。播出编码器可能抓住和消除这些部分音频接入单元,但它无法补救时间序列内的间隙。该问题一直传到消费接收机,它们对此有与实现相关的不良反应。
·通过分析压缩音频信号,发现其内部的音频接入单元,并在需要时跳过或复制接入单元。这种方案将产生一半左右的接入单元时间音像同步误差。这也有与实现相关联及标准相关的在接收端声音不良的后果。即使音频帧被“干净地”消除或复制,大部分音频编码标准使用从一帧到下一帧的信息,在解码器发现不连续时它们将强制重新同步。
·同步器能够执行一个相当于解码预压缩音频、取样率转换结果,然后重新编码它的操作。虽然这大量占用资源,但在所有场合都有效。
即使在同步器经过升级,对Dolby Digital预压缩音频工作最佳,如果使用一个常规的视频切换台,在视频帧和音频接入单元没有对准时依然不可能切换带预压缩音频的两个视频信号。信号没有对齐,而帧同步器必须处理的所有同样的音频连续性问题重新出现。
由于接入单元对准视频帧,Dolby E可在播出设施内与视频一起切换,而Dolby E解码器被设计用于正确地解决不连续性问题。令人遗憾的是,此相同的功能没有扩展到其它压缩音频格式。
管理延迟
每当音频被编码或解码时,信号就被延迟。由于视频信号没有遇到这种延迟,它必须在电视中心的某处得到补偿。大部分Dolby E编码器和解码器刚好在一视频帧时间内完成工作,而其它编码器和解码器可能需长得多的时间(对某些编码器来说,185ms是典型的延迟)。
当节目从一方传递到另一方(如节目带或文件传递,或内部传递),在压缩音频和视频之间精确校准的沟通极其重要。在Dolby E情况下,发送方可能预补偿编码延迟(增加一视频帧延迟),因此Dolby E码流在传输中与视频一致;但接收方依然需要增加一视频帧延迟以补偿Dolby E解码延迟。在其它情况下,发送方可能预补偿编码和解码延迟,也可能都不要。在其它压缩音频格式的情形,通常由发送方补偿编码延迟,而把解码延迟补偿留给接收方,原因是在基于实现的处理延迟中有更多的可变性。提供方和接收方之间清晰沟通是此问题的唯一良方。
即使有测量音频/视频一致性的测试设备,清楚该设备正在实际测量什么以及在其测量中称为“零“的结果也至关重要。
最易做错的6种方式
频率参考出错
如何给大部分音频编码设备定参考有许多模式和选择。正确的选择取决于设施设计。但无论如何,音频编码器的SMPTE337M输出必须与设施内的视频信号同步。如果频率没有锁定,那么在设备试图修复它时将有爆裂声。
V比特或通道状态比特内的问题
虽然标准始终在改进,但依然可以找到少量对标准有不同解释的设备。客户反施给厂商的压力是对这些问题的唯一切实的解决方案。
保护带未对准
即使在使用Dolby E而全部有关的设备都有正确的频率参考时,也要求Dolby E音频与视频时间一致。有多种测试设备能够测量此一致性,确保在帧扫描期切换的视频与Dolby E内的间隙一致。
错误的期望
如果在未对准视频帧结构的设备内采用一种压缩音频格式,则不可能在不大干扰压缩音频的条件下合理地切换节目源。如果要做除了将它直通之外的任何操作,最好的办法就是解码、以PCM运行设备,然后在输出重新编码,或采用一种帧对准的音频格式。
未能处理静态延迟
在电视中心内的每个位置,视频和音频的对准都必须有据可凭,而如果此设备将切换两个信号,它们有相同的A/V一致性非常重要。尽管这似乎很显然,但压缩和解压音频的帧延迟易被忽视。
无正确的元数据
多声道音频编码器通常携带一些元数据,使消费系统能够为消费者家中特定的聆听配置恰当地缩混多声道音频。此元数据必须一直在设备中存在,并且与视频一起被切换。它与音频本身一样重要。在音频为PCM格式时,VANC数据常被用于实现此目的,而Dolby E也提供一个元数据通道。
总结
为方便多声道音频包分发给消费者,现代播出设施信号流日益利用预压缩音频。这种技术提供极好的音频质量,并且在现有播出设备的预算、布线和功能范围内运作。如果在信号流设计、实施和维护中予以恰当地顾及,预压缩音频能够提供优异的观众体验。B&P
(全文完)