多年来,视频制备和分发的复杂性大幅增加。首先,业界见证了从磁带到基于文件的工作流程的转变,接着是是从模拟到数字的转变。新的格式和标准也出现了,增加了视频分发的复杂性。
除了这些技术变革之外,消费者的观看习惯也在发生变化。如今的观众更喜欢OTT媒体服务,根据Parks Associates的最新研究,76%的美国家庭订阅了OTT服务,而订阅传统付费电视只有62%。随着广播公司向更大范围的屏幕和全球观众分发更多的内容,更多的差错被引入工作流程,可能视频和音频质量。

媒体自动化质量监控系统的最新进展,正帮助广播公司向每个屏幕提供无差错的视频和音频。特别值得一提的是,机器学习(ML)和人工智能(AI)领域的创新正在使媒体质量控制(QC)和监测更上一层楼,提高某些媒体任务的准确性和一致性,包括内容分类、内容编目、口型同步检查等等。
媒体QC和监测正在发展
在媒体质量监控的早期阶段,自动化系统仅限于简单的任务,例如检查音频/视频技术参数的正确性,包括分辨率、帧率、比特率、内容结构和容器参数。
从那时起,媒体质量监控一直在发展。今天,广播公司可以使用计算机视觉和标准音频处理技术检查感知错误。这些检查包括隔行扫描伪像、有缺陷的像素、丢帧、视觉文本识别、压缩和重影假象、响度和语言检测。
随着ML的兴起,以及ML成功完成了内容分类、对象检测等任务,媒体质量监控的范围也随之扩大。现在广播公司正在使用能够从语义上理解内容的先进ML技术,以达到内容审核、内容分类、检索和描述生成的目的。让我们看看几个可以用ML和AI技术进行优化的专门媒体应用场景。
用ML加速内容合规
监视和修改内容以符合不同的规章制度是大大受益于ML的一项应用。广播公司必须遵守各种各样的规章,这些规章可能因地区而异。
传统上,广播公司会维持一群审查员员手动过滤内容,以符合监管规定。在典型的手工工作流程中,内容要经过多个审查阶段。如果评审在任何阶段失败,内容就会返回进行编辑。手工内容的质量监控是昂贵、费时和不准确的。由于有如此多的全球性和区域性的内容审查环节,人类几乎不可能做到百分百的准确性。
通过自动化这一过程,广播公司可以消除人工内容审核的限制,包括人们无法记住大量的视觉符号和人为错误的可能性。有了自动化的质量监控工作流程,广播公司可以更快速和准确地检查节目内容,包括品牌名称、仇恨符号、酒精、暴力、名人脸、粗俗言论字幕和宗教符号。
当使用由ML、计算机视觉技术和计算机算法驱动的自动化系统时,好处就更大了。基于ML的系统可以处理大量和多个内容分类检查列表,而没有任何大的性能限制,从而提高广播工作流程的效率。
但是,需要注意的是,虽然当前的ML解决方案很先进,并且可以组合起来创建更广泛的应用,但是它们缺乏自己创建有效和可接受的结果所需的真实世界的知识和人类经验。仍然需要人工输入来确认模式的有效性并帮助机器改进结果。在可预见的未来,这种人机交互很可能会定义ML在媒体行业中的应用。

通过ML确保高质量字幕
检查字幕的存在和准确性是ML被证明非常有效的另一个应用领域。ML可用于在内容中没有字幕的情况下自动生成字幕,检查字幕和音频之间的对准,并检查字幕对口语音频的正确性。此外,ML简化了对音频中发声者的识别,确保在字幕中放置正确的标点。
最终,使用ML,广播公司可以加快直播和VOD内容的字幕创作和验证过程,同时确保内容在OTT视频流中以多种视频质量水平分发时,字幕保持高质量。
在过去的十年里,通过ML,自动语音识别引擎达到了高达85%的极高准确度。尽管如此,自动语音引擎依然面临着一些挑战,如嘈杂环境中的稳健性问题、变异口音处理能力、多名发言者同时说话时的问题,以及小孩声音的困难(由于缺乏数据训练ML模型)。
要解决这些挑战,必须让人类参与其中。广播公司通过将先进的ML和自动语音识别技术与人工审查过程相结合,可以为传统电视和视频流字幕的创建、管理和分发带来更大的简化和成本节约。
用ML消除AV音视频同步问题
音频和视频之间的同步是当今的一个常见问题。利用图像处理、ML技术和深度神经网络,广播公司可以自动检测音频和视频同步错误。与手动检查音视频同步错误的传统方法相比,ML提供了一种更快、更精确的检测媒体内容中音频超前和滞后问题,使得广播公司能够为观众提供高质量的体验(QoE)。
通过ML能力,广播公司可以进行人脸识别、人脸跟踪、口型检测、唇动检测和语音识别。使用基于ML的音视频同步解决方案,通常一个模块使用视频提取人脸和跟踪唇动。第二个模块使用音频提取音频特性,第三个ML模块使唇动与音频特性匹配。使用这种技术,甚至可以检测一帧的同步问题。
结论
广播公司在全球分发的内容数量是巨大的。如果广播公司想让观众满意,确保每个屏幕上都有高质量的视频体验是至关重要的。有了采用ML和AI技术的自动质量监控解决方案,广播公司可以更快更准确地遵守行业和政府法规,提供高质量的字幕,分类内容,并消除音视频同步问题。