微博

QQ

音视频同步误差困扰数字电视

2006-07-26 本刊编辑部 依马狮网


音视频同步误差困扰数字电视
图1 Pixelmetrix的LipTracker逐帧搜索一张人脸(黄方框),然后定位该脸部的上下唇(红轮廓)。从框起来的区域提取该嘴特征并加以分析,检测“e”、“o”和“a”嘴形。
    当普通观众都能注意到电视上声音经常与画面不配合时,问题就大了。

    “音视频同步问题在数字电视出现后更严重了,但它们并不是数字电视所特有的,”全美广播业者协会(NAB)科技部通信工程总监、SMPTE音视频同步问题专门小组(由S-22电视系统委员会主办)主席Graham Jogy说,“由于有了数字系统上行,甚至NTSC模拟播出都有音视频同步问题。”这引入延迟。

    SMPTE及全世界其它标准组织已经展开对音视频同步误差起因的调查,寻找针对它们的解决方案。厂商们也在积极提出创新的测量和修正同步误差的方案。

尚方宝剑
    Jogy表示,音视频同步误差有不同的类别,需要分别对待。“不完全的解决方案是有的,但尚方宝剑就没有。”

    英国Calrec音频有限公司市场协调员Kevin Emmott说,他们制造了一种中断业务测试装置Lip Stick,它测量视频和音频信号之间的延迟量。Lip Stick由一台发射器和接收器组成,发射器每7秒钟在音频和视频信号上插入一个识别信号,而接收器则比较输入信号的识别信号。接收器测量视频和2个音频通道每个之间的定时延迟,并在适当的显示屏上显示出来。这两个音频通道可或被用作两个单声线路、一个立体声线路,或一个到卫星视频通路的卫星音频和ISDN同时线路。

    由于识别信号系统是通过“插入一个测试标记到现行画面,并在音频通道上插入一个听得见的声脉冲群”工作的,因此Lip Stick原意并非用于传输期间。此外,Lip Stick系统仅仅工作于模拟信号。测量后可以转换到数字信号,但此转换前当然必须算进转换的延迟。

    Emmott称用户已经成功地用Lip Stick测量延迟量,并在传输前校正它。

    Vistek提供V1681 VALID发生器和V1682 VALID读出器,用于与其它许多测试方案一起测量音/视频同步误差。VALID是测试信号的名称,它包括一个每4秒钟转一次的旋转慧尾图。在慧尾扫到12点钟位置时,还为一个电视帧产生一个黑十字图案。与此同时,通过识别被锁定于那4秒钟可视图案的静音,产生一个立体声声音。此组合信号可被V1682 VALID读出器检测出来,表示定时差异。

    该Vistek系统适用于SD和HD,并能监测嵌入音频。

    一旦知道音频/视频延迟,则适当延迟就可以插入音频通路。Sigma电子公司设计了一种针对其OctaStream AES音频管理系统的控制系统(它包括音频延迟和AES声道交换),使全业务后期制作公司Encore Hollywood更易进行此处理。

    Sigma电子公司总裁Bill Swilley说:“Encore Hollywood可以计算出固定延迟,但他们面对的是8通道音频,而且没有容易的方法控制、调整它们。”

    对不同源素材的不同类型处理意味着不同的延迟设置。Swilley表示:“与SD传输相比,HD传输可能有不同的延迟。”

    Sigma电子公司的OCP-100 1RU控制盘允许远程设置和监测卡功能,存储每个节目的预置或混录配置。

运行中测试
    中断业务测量延迟对后期制作机构很有效,但对于不间断工作的广播机构,运营中测试方式的价值无法估量。

    Pixel Instruments在NAB2005展示了LipTracker技术,NAB2006演示了对此技术的改进。

    Pixel Instruments销售和市场总监Chris Smith说:“我们以路线终点观点对待看此问题。”

    LipTracker具有视频和音频输入端口。Smith对视频部分加以解释。“我们确定一个头或脸。一旦我们找到了此脸,我们就找到了嘴唇的轮廓,这为我们提供了发声区。我们分析口形,给出相互活动(对应于3种不同元音声的口形)一些重要的定位点。这些元音声是截然不同的,与一个极端口形相符。我们在数秒钟的时间周期观察连续的声音和口形。”

    得到的结果是音频和视频之间的延迟误差。LipTracker还在嘴唇不在动时寻找静音。

    “我们不对静音指配与其它元音声一样多的权重,”静音是更确定的,“嘴巴并非总是沉默不语,但它的意义。”Smith表示。

    第一版本的LipTracker需要一个已知的人脸和话音来产生有意义的结果,并检验此技术概念,而Pixel Instruments正在开发新版本。Smith说今年的目标是“使技术说话人与处理未知人脸和话音的能力无关,并加速处理到实时或极接近实时。”

音视频同步误差困扰数字电视
图2 LipTracker转换音频到频域,并规格化此数据使得由音调而产生的差异最小。用基于矩的测量得到一个频谱分布图显示,可以用与此说话人无关的方式鉴别和隔离“e”、“o”和“a”元音声。
    Sinma电子正在发展其再NAB2005推出的劲弩(Arbalest)数字音频/视频同步系统。由于法律和专利申请的原因,该公司没有公布此系统如何工作的信息,但公司总裁Swilley称:“我们正在解决压缩和非压缩域中的传输和收录误差。一旦我们知道某东西处于同步状态,我们就在另一端保持同步。它是一种针对动态工作的传递操作,并不测量延迟和选择预设值。”

    Swilly表示此技术还能用于同步SD和HD馈送信号。

    在现行的制作实践中,视频延迟量可能变化很大。但如果视频处理设备能以某种方式传递它产生多大的延迟,那么一个新一代智能音频延迟可以利用此信息以一种听不见的方式校正误差。

    SMPTE音频/视频同步问题特别小组有许多任务,其中一个任务是正在考虑补偿延迟的音频和视频同步控制标准。该工作还在进行中。

    该小组还希望在今后几个月内完成一份将为防止和校正误差提供工程指导方针和准则的文件。此计划将包括整个制作和传输链上各个点(如制作和后期制作、发行机构、附属台、播出编码器、接收机和最终解码和显示)的误差容限。

视听科技视频号 广告
发表评论