业界似乎在检测和修正音像同步误差方面正在取得某些进展,这在去年的AES大会、IEEE BTS研讨会、SMPTE技术研讨会和ATSC响度研讨会上有所体现。
在各种动态节目素材播出时进行精确的、不中断服务的测量是复杂的。新兴的音频/视频指纹识别技术也许掌握大量解决方案的关键。
分析数据
用一句话概括此应用,指纹识别或相关技术包括两个信号的比较,其中一个是已知无音像同步误差的参考信号,而第二个信号则位于信号链内的某处。
此第二信号实际上可在信号链内许多不同的位置获得:从主控系统的最后输出信号,一直到使用一台专业综合接收解码器(IRD)或消费机顶盒接收的无线广播信号、有线电视信号、卫星广播信号或光纤传输的信号。
采用这种方式,每个子系统都可对音像同步误差进行检查,因此在信号从一个子系统传输到下一个时可以极其有效地防止误差累积。
从已知的好信号源开始,指纹识别算法分析和提取其特征、指纹、相关数据或来自音频和视频的A/V签名(视哪个公司而定)。
指纹数据对每帧视频和某时间段音频都是唯一的,取决于进行指纹识别测量的系统,可一个通道接着一个通道,作为如立体声或5.1的一个整体,或几个选择的通道分析音频。
此信号链的下端,一个目的地信号接受此分析。
如果此目的地信号被送进与信号源一样的分析仪,那么在内部比较此相关数据。此比较可以产生某些结果,如核实这两个信号确实有相同的内容,从信号源到目的地的延迟,以及音频和视频之间的相对延迟(音像同步误差)。
如果信号源和目的地信号物理上相隔很远,它们在每个位置各需要一个指纹分析仪。相关数据(通常为低码率数据流)则必须以同一方式从信号源传输到目的地,如局域网或广域网或卫星数据链路上的一个IP通路。在现在可用的系统或正在研究的系统中,相关数据通路的定时并不是关键性的。
如果在源和目的地之间检测音像同步误差,检测误差的系统可以做两件事的其中一件:通过某些方式向操作员发出存在一个误差的警报,因此该操作员能选择如何纠正它;或系统能控制某些设备,自动进行音频或视频内的延迟纠正,无论哪个需要延迟纠正。
使用指纹识别技术,源或目的地信号本身没有变化,这与计时码被插入视频源的某些水印技术不同。
指纹识别的另一优点是相关数据源自内容本身,而非一个信号的格式。这允许离开主控系统的一个HD 5.1环绕声信号到一个来自消费机顶盒的NTSC立体声信号之间的比较。
指纹识别的一个潜在缺点是每家厂商都有专有算法,各有专利权或专利申请中。这意味着来自一个厂商的产品的相关数据流与另一个厂商的指纹识别分析引擎不兼容。当前这种互操作性的缺失可能阻碍普遍的实施。不过,SMPTE已经注意到了此领域中标准的要求,SMPTE 22TV Lip Sync特别小组在承担此任务。
指纹识别现已可用
指纹识别技术没有停留在技术上,它已经得到实际使用。
Miranda公司在其Densite模块化产品系列中有一块卡HLP-1801,它执行两个信号(一直信号源和未知目的地信号)上的音像同步误差测量。
“此卡有两个独立的指纹识别发生器引擎,同时完成对两个信号的分析,”Miranda高级副总裁Marco Lopez说,“指纹识别是一场一场进行的,产生一个什么视频和音频内容针对该场的独特指纹。”
此分析仪首先检查内容在源和目的地是否相同。如果一致,则进而检查音像同步误差。(如果内容不同,继续进行进一步分析毫无意义。)
HLP-1801可配套Miranda基于SNMP的iControl多频道播出监测系统使用,后者能捕获误差指示且执行如警告操作员的某些动作,或对Miranda另一处理卡作一延迟调整。HLP-801分析最多16个音频通道。
Lopez说:“每一个通道有其特有的指纹。这样我们可以测量相位间任何相位偏移。音频测量的准确度为(+/-)1ms。”
此卡还可用于音频或视频存在检测等其它作用。
Miranda预计不久就推出一种支持多点、多地音像同步监测的iControl版本,使如电视网等监测来自附属台的返送信号。
Evertz IntelliTrak节目视频和音频音像同步分析仪时间分片音频和视频信号,并且做IntelliTrak数学运算及产生相关数据,Evertz产品经理Tony Zare表示,“它寻找关于音频和视频内容的特性,并且及时产生大量代表视频帧和音频帧的一个数字。从这些信息,IntelliTrack算法然后决定贯穿信号链的延迟。这种做法无需任何视频和音频水印,因而被称为一种完全非介入式系统。”
IntelliTrak能以不同的可选择方式处理音频。它能作为一个实体分析5.1环绕声,或在例如它比较左和右、右和右声道时考察分离声道,并产生各自的音像同步误差。
此系统还能将一个Dolby E信号与另一个Dolby E相比较,以及将AC-3与另一个AC-3相比较。根据Zare的说法,IntelliTrak具有少于1ms的测量精确度。
此技术的一个应用是使用台内矩阵切换台把两个信号选入一个IntelliTrack设备,以测量两点间的音像同步误差。另一应用是在转播车地点使用IntelliTrak,产生恰好在源地点的相关数据,然后把此数据经由IP链路传输到台内。
IntelliTrak由该公司的研发组研发,作为一种可用于Evertz一系列产品(如帧同步器、分配放大器矩阵切换台和多画面显示系统等)内的软件核心。
每块IntelliTrac模块都有一个SNMP陷阱,因此能嵌入一个如Evertz VistaLINK网管系统等的监测系统,用于音像同步误差的通知或校正。
如果检测到一个误差,如何去做?
Zare说:“如果你想用此系统进行快速修复(自动校正),该系统是可以做的,但这并非真正的解决方案。真正的能力是用它精确地找到出差问题的所在。”Zare表示他在一些电视台做演示时,感觉不到音像同步误差,但IntelliTrak发现了它们。
杜比在过去4年一直在研究指纹识别技术。虽然尚无产品,但杜比实验室的Kent Terry和Regunathan Radhakrishnan在SMPTE技术会议上提交了“用音频和视频指纹检测和校正音像同步误差”的报告和一些实验结果。
在该论文内阐述的技术旨在与如MPEG压缩、幅形比转换和取样率转换等的典型信号处理协同工作,这些类型的信号处理被用于正常的播出链,但不适用于在制作中完成的更昂贵的处理。它还可适用于基于文件的系统。 [Page]
作为适用于此应用的指纹识别系统的典型,该技术比较两个信号。
杜比实验室高级工程师Kent Terry说,第一步是从一个你有正确同步的点测量和产生一个音视频同步签名。从那时起,在下游点测量并计量或校正任何音像同步误差。此系统的音像同步精确度为+/- 10ms。
A/V同步签名是从音频和视频内容提取出来的一个特征表现,并且必须以某种方式从参考信号分析仪传输到下游的信号分析仪(如图所示)。IP链路能完成此工作。但此签名数据并不一定直接附属于音频或视频内容,这是其优点之一。
杜比提出的此技术还包含一种预测产生的同步误差数字可靠程度的方式。
随着指纹识别技术的发展和实施,以及随着互操作性标准的制定和遵循,解决这些恼人的音像同步问题的未来看起来比较光明。然而,这种技术应该替代不了良好的系统设计、保持正确的MPEG时间标记、重视详情和严密监测信号。

音频延迟和视频延迟间的差异即A/V同步误差