J. Mailhot
哈里斯公司广播通信部
【摘要】 在电视制作和分配中心中,处理和传送被用各种技术压缩的多声道音频包的工作日益增多。本文讨论在视频同步、处理和编码环境下处理和传送这些预压缩音频包的各种损害和误差源。
引言
随着许多国家推出高清电视服务,多声道音频制作和分配工作激增。多声道音频制作多年来是电影行业的一个主要内容,现在正日益丰富电视观众对各种节目的体验。由于声道数多,以及声道间同步和元数据传输要求,电视中心内首选的信号流往往涉及从多种压缩技术中采用一种,以压缩方式传输这些多声道音频包。
传统电视处理环境内的信号处理和编码设备最初往往从传输和处理一对或更多对“标准”(PCM)音频的概念开始。设计中必须注意使用像AES3 (1)或其嵌入形式的SMPTE299M (2) 这样的基于立体声的数字传输,使立体声对的声道之间保持同步。早期的磁带机和基于服务器的系统通常记录两对立体声,有时4对立体声,电视中心内单独的AES音频声级布线往往有两个AES通路(两对立体声)。
随着上世纪90年代中期电视中心出现多声道音频,业界开发了若干种方案“轻压缩”多声道音频包且在一个AES3载波上传送它,以便适应布线、磁带机和服务器的两对立体声限制。AES3标准通过在标头结构内包含PCM/非PCM比特预备这种使用情况,而SMPTE337 (3) 随后澄清了关于此使用情况的一些问题。这些早期的方案包括Leitch Diamond Audio系统和Dolby E (1)。近期,Dolby E在此技术的实际应用中几乎无所不在。
此外,为把多声道音频编码器连接进视频编码器,最后一程的多声道压缩系统使用了相同的用一个AES3数字载波传输压缩音频的SMPTE337技术。在这些情况中,音频码流处于最后的音频分配格式,在某些电视环境中,Dolby Digital (AC-3) 和AAC Multichannel音频都以这种形式传输。此技术还用于某些在磁带和服务器上存储预压缩的分配格式音频包供以后播放的场合。
在视频压缩的情况下,对于压缩的传输和压缩的分配环境,这些预压缩音频信号使用一种格式特有的标准技术,被打包且复用进一个MPEG-2传输流环境。在此运作中(往往为电视中心的最后递交点),存在由上游制作部门处理预压缩音频的错误/人工产物而导致的缺陷和影响。
这些围绕电视中心以AES3格式传输压缩音频的使用情况(无论是嵌在视频还是单独在AES3上传输)有时是音频问题的起源。本文阐述一些常见的问题或此技术的缺点,以及它们的针对性解决方案。
AES3数字信号的简单回顾
AES3最初于1985年得到批准,在这期间修改了若干次。这段历史本身对电视中心内的问题起了很大的作用,因为AES-3信号内的控制和状态比特的特殊含义和解释可能根据一个设备支持的标准版本不同而不同。
一般而言,AES3标准以此音频的取样率传输多对样本(本文称为AES帧)。这些AES帧被分成由192个AES帧组成的AES块。每个AES帧内为两个32位AES子帧(格式如下)的连接。

·报头区为接收机提供一种信号锁定机制,而在这样做时识别AES块、AES帧和AES子帧边界。
·音频样本字是实际值,把此互补二进制形式的音频样本分为两部分。当使用20位样本时,末4位可用于其它应用(很少用)或设置为0(常见)。
·标为“V”的位被称为有效位,其在预压缩音频情况下的含义是本文的主题。AES3-2003文件定义此位为“指示同一子帧内的音频样本是否适合转换为一个模拟音频信号”。
·标为“P”的位为一个4-31位范围计算的偶数齐偶检验位。
·标为“U”的位可用于用户应用数据,默认为0。
·标为“C”的,将来自AES块内全部类似样本的“C”位合并组成一个192位(24B)信息块,称为通道状态块。8页AES3-2003文件专门论述通道状态块的内容。注意每个AES块有两个通道状态块,一个针对“第一”子帧样本,另一个针对“第二”子帧样本。
在通道状态块内有若干信息比特,它们影响预压缩(非PCM)音频的处理。
嵌入音频简单回顾
随着串行数字视频的出现,获得的优点之一为在此数字视频框架内嵌入作为“辅助”数据的音频(及其它)信号。SMPTE272 (4) 规定标清视频情况下的嵌入音频,而SMPTE299M规定高清视频情况下的嵌入音频。为清晰起见,本文只叙述HD情形。
嵌入音频结构化为辅助数据包。每个音频ANC包包含与AES-3数字信号(其所有32比特)内存在的完全相同的AES子帧信息,而且它主要藉参考AES-3文件定义。4个通道(两个AES帧)被置入每个音频ANC包。这对两个AES-3帧内音频信号之间的关系提出了一些要求(相同的取样率、相同的同步/异步模式以及相同的相对于视频的相位)。
除了AES帧数据外,音频ANC包还包含一个CLK字段,它规定包内样本之间的时间关系和视频帧。在预压缩音频的情况下,这个CLK信息意义不很大,但依然被此标准要求。
嵌入音频标准还定义一个音频控制包,此包每帧发送一次,其主要目的为指示音频帧序列内的帧位置(音频帧序号)。音频典型取样率(48kHz)没有均匀地划分某些电视系统的帧率,因此AFN指示序列内的位置。音频控制包还包含关于哪些嵌入通道活动的信息,以及取样率和通道的同步状态。值得注意的是此相同信息在个别音频声道的通道状态块内显示,而传输它两次是一个潜在的误差来源。
工程师可以有多少了解这些相同标准的途径?
1992年重新颁布并在2003年又颁布的AES3-1985标准清楚地预见了传输严格说来非音频样本的数字信息的AES3接口和格式的用途。SMPTE 337M-2000尝试澄清电视环境内共同的使用案例。但依然有这些文件的若干“解释”,它们在全世界的电视机构中流行。
“v”位的意义
以下文件都定义此相同的位。
·在1992年的AES3修订版中,“v”位定义措词清楚地称“如果音频取样字适合转换为一个模拟音频信号,则有效比特为逻辑0,如果不适合,则为逻辑1”。
·SMPTE337M参考AES3-1992,“按照AES3”定义“v”位。
·IEC60958-4定义“v”位含义为“对于此标准,有效位将被用于指示子帧内主数据段位是否适合于用线性PCM编码转换为一个模拟音频信号。”不过,IEC60958应用域严格地为线性PCM音频。 [Page]
·IEC60958-3定义“v”位含义为“如果主数据段内的信息可靠,则有效位为逻辑0,如果不可靠,则为逻辑1。对有效位无默认状态”。此958-3标准定义PCM和非PCM音频。它接着指出“对于没有采用线性PCM编码的传输,也许可以设定此位。此举意在防止在完整的通道状态块收到前非音频数据意外解码为模拟”。958-3标准附录A提供“v”位更详细的使用历史,尽管主要为SPDIF的消费应用。
在AES3上传输压缩音频时,“v”位应设定或跳过吗?最佳的互操作性做法是不管“v”位的值如何,接收器处理数据,只要PCM/非PCM位指示非PCM数据。 通常在压缩音频协议的更高层有检查和或CRC,它们将真实地指示任何数据误差。至于专业环境内所需的行为,两种情况都在实地出现。在专业设备中,通道状态块内的PCM/非PCM位必须正确,而“v”位为有最大的互操作性,应指示正确性。在消费者接口,最好遵循ICE60958-3附录A。
“专业”位
在每个通道的192位通道状态块内,字节0比特0被用于指示数据格式是否以AES3文件化(如果此位被设定为“专业”),或此数据格式是否以IEC 60958-3文件化(如果此位被设定为“消费”)。由于常见的芯片解决方案往往被用于消费机顶盒或专业接收器,电视广播中心内的数字音频信号在通道状态中被标为“消费”很普遍。常被称为“准专业消费者”市场类别的出现进一步模糊这种差别。为了最好的互操作性,专业设备应该妥善地接收和处理被标为“消费”的音频信号,前提是它们确实符合ICE60958-3标准。值得特别指出的是当发送设备设定“专业”位时,应该计算和发送通道状态块的CRC字节,因为接收设备将可能认为它是正确的。如果此比特被设为“消费”,则CRC字段应该被发射机设置为0,并被接收器忽略。
“非PCM位”
在消费和专业版的通道状态块内,字节0比特1指示通道内样本是“线性PCM样本”,还是别的东西。在本文的应用中,它始终是“别的东西”。此比特准确无误是最重要的,搞错往往以毁灭告终。此领域内大多数设备内置取样率转换器或其它音频处理(如增益控制)。未能设定此位将导致这些样本被处理,破坏它们的非PCM意义。这一般导致非常嘈杂的“机关枪”噪声。
数据—块—序号(DBN)字段
在SMPTE 299M-2004嵌入音频标准中,规定音频数据包有一个与SMPTE 291M有关的DBN字段。SMPTE 291M定义此字段,而嵌入音频包为Type-1包,由此该术语被用于SMPTE-291中。开启短句“要求一个连续性指示”,此DBN字段可以有一或两个办法做到这点。设定DBN的8比特内容为0是有效的(如果你认为不需要一个连续性指示)。把一个1-255的增值模式置入DBN的8比特内容也是有效的,不过,如果每帧重新开始连续计数,这些标准并不绝对清晰,或如果有一个DBN零和DBN增值(如可能来自两个有不同方案的发送器之间的设施内的交换机)的混合,怎么去做也不清晰。最安全的方法是发送一个零DBN计数值,指示为了决定性的连续目的,此DBN是闲置的。
Dolby E简要回顾
Dolby E系统设计用于电视存储、播放、制作和分配的特殊环境。Dolby E系统内一切都与视频信号的帧频同步工作;对应视频内容某一帧的所有音频样本(跨越最多8个单声声道)以及它们的元数据被压缩为Dolby E的一“帧”。为明确主题,讨论25Hz和29.97Hz的情形。在59.94Hz逐行系统或50Hz逐行系统中,一“帧对”视频帧的音频样本被合并为一个Dolby E帧,然后以相应视频帧的一半速率处理此帧。
此Dolby E数据“帧”在非PCM模式中以SMPTE337内描述的“数据串”方式,采用AES3信号的取样比特被传输。除了SMPTE337规定的以外,这些Dolby E数据串与Dolby E码流的数据结构一致,而且被同步,因而它们与视频帧时间对齐,留下一个保护带用于对准,如图1所示。

通过对准Dolby E码流结构、数据串和视频帧,可以在视频切换点进行不同视频信号之间的切换,并且有Dolby E音频的连续性。如果Dolby E编码器没有与视频正确相关且相位没有完全对齐无法确保保护带在正确的位置,则此切换行为将不能获得预期效果。若干大厂商提供测量和确认此对准的测试设备。B&P
(未完待续)