
VionLabs的“情绪指纹API”使用计算机视觉和机器学习生成情绪数据
趋势提醒:人工智能/机器学习(AI/ML)正成为整个电视制作/播出过程中不可或缺的一部分“AI/ML正在转变,为广播公司和内容制作商提供巨大的价值,” 实时视频分析市场研究公司IdenTV联合创始人兼首席运营官阿姆鲁·萨哈达表示:“AI/ML通过将大数据从成本中心和不透明的结构化/非结构化数据集转换为实时可执行的分析和大数据搜索和调用工具,创造更好的用户体验,并从新的内容分发渠道获得收入,实现了这一点。”
广播咨询师加里·奥尔森刚刚出版了其著作第二版《IP广播设施的规划和设计——一个需要解决的新难题》,他说这项技术已经在制作链的元素中出现,并有望扩大其影响范围。
“我认为AI/ML将在2020年出现于编辑、图文包装和媒体管理产品中,”奥尔森说,“这一年随着时间的推移,“看看哪些厂家会声称他们的产品有AI或ML将是有趣的。”
内容发现
许多大广播公司和电视制作商都有大量适合直接面向消费者在线销售的内容库。面临的挑战在于,在不用员工实时观看所有节目的情况下,确定哪些节目会吸引现代消费者,以及它们吸引消费者的原因。
Prime Focus Technologies公司表示,其CLEAR Vision Cloud有一个基于云的AI引擎,可以通过许多搜索可变因素做这个工作,而且在“创纪录的时间内”。
“可能有一个着眼于识别视频中的人脸的AI引擎,” Prime Focus Technologies人工智能和机器学习副总裁莫拉利达尔·斯里达尔说,“另一个AI引擎可能着眼于‘比如说,一个人在水里溅起水花’的标志性声音,而第三个AI引擎搜索独特的物体。目前为止最棒的是,人工查看一段内容可能需花数小时的工作用我们的AI可实时完成。”
Primestream产品开发总监艾伦•达布尔表示,Primestream的Xchange平台使用AI/ML驱动其内容发现工具,在这一过程中提供广泛的搜索选项。
“你不仅可以把搜索范围缩小到仅对特朗普总统,还可以缩小到他在谈论税收的那些具体片段,”他说,“然后,你可以进一步缩小搜索范围,搜索他在办公室背景里谈论税收的时候,然后看看当时镜头内谁与总统交谈。”
体育和现场事件
考虑到必须即时制作的内容量,体育及其它现场事件是广播公司最劳动力密集的制作之一。Tedial的SMARTLIVE元数据引擎使用AI/ML自动化与这些制作相关的媒体管理任务;包括元数据标记、自动片段创作和现场事件期间分发到数字平台和社交媒体。SMARTLIVE还可以管理多场馆信号,支持多重、即时内容搜索,从而将存档素材集成进直播信号中。
“SMARTLIVE在使用的预算和人员不变的情况下,使制作团队能够制作更多内容,从而增加体育迷参与度和收入,”Tedial产品副总裁杰罗姆·沃弗茨说,“SMARTLIVE还可以直接连接到现有的制作环境,这样我们的客户就可以使用他们现有的基础设施摄取、编辑和分发内容;不需要额外的投资。”
字幕和翻译
AI/ML吸引力正在增加的另一个劳动力密集型领域是多语种字幕。使用语音转文字AI系统,可以从内容的音频中自动生成文字字幕,并在同一数据流内以多种语言提供它们。
“这些算法经过训练,能够实时从数据中学习,吸收当地措辞和方言,从而获得最佳字幕体验,”IBM Watson Media高级销售经理布兰登•沙利文表示,“随着AI和机器学习训练能力的提高,当地方言、地名和特定的名字,以及个别发言者的话音,都将被准确捕捉。未来,这不仅会改变隐含字幕,还会改变自动翻译、视频检索等。”
字幕和口型同步是Interra Systems的视频质量控制平台DATON的两个AI/ML技术。“通过AI/ML,你可以提高字幕的准确性和速度,这是一个资源密集型、耗时的处理,” Interra Systems产品管理副总裁阿努帕玛·安纳塔拉曼说,“它在检测‘口型同步’方面也特别有效:屏幕上嘴唇运动和说话内容一致。”
Telestream云产品经理雷米•福尔罗表示,Telestream Cloud包括如同其许多基于云的AI/ML支持服务的字幕;其它服务是为多个分发平台进行视频转码和质量/合规检查。
“我们利用许多基于云的提供商的语音文本转换功能,生成多种语言的准确字幕,”福尔罗说,“这是AI/ML在准确、高效地完成任务方面真正闪耀的领域。”
ENCO的enCaption4平台为直播和录播电视内容提供自动化隐含字幕,并将AI驱动的机器学习与神经网络语音文本转换引擎相结合。除了通过AI教给独特词语的新闻演播室节目流程单导入外,enCaption4还可以教给专门的词语,如主持人和演员姓名,以及当地说法。其它AI驱动的增强改进了字幕标点符号和大小写。
“enCaption可以准确地拼写从摄入清单和脚本中学习到的罕见词汇,而且不需要为每个说话者创建语音模式个人档案,”ENCO总裁肯恩•弗罗姆特说,“自动为来自各个主播、记者、气象学家和演播室嘉宾的讲话打字幕,对新闻操作是非常有益的。”
压缩
视频压缩始终是在数据率降低和视频质量之间求平衡。通过如其VOS360直播流媒体平台这样的基于AI和ML的云解决方案,哈雷的目标是更有效地实现这一平衡。
“我们的PURE压缩引擎使用AI/ML改进管理视频压缩的算法,”哈雷公司负责AI/ML用于视频压缩的高级产品营销经理让-路易·迪亚斯科恩说,“与使用人类工程师相比,使用AI/ML技术实现这些改进要快得多。在去年的NAB BEITC上提出后我们不断取得进展,现在的目标是解决密度方面的问题。”
推荐引擎
亚马逊、Netflix和YouTube等流媒体服务使用AI/ML赋能的推荐引擎挖掘观众当前的内容选择,并利用他们的发现推荐可能感兴趣的类似节目。视频发现技术提供商Vionlabs的AI/ML内容发现平台旨在帮助广播公司评估自己的内容库,聚焦并提升它们的直接面向消费者的线上销售。
“高质量数据可以帮助广播公司更了解他们的内容,并在整个内容周期中做出更精明的决定,” Vionlabs首席执行官马库斯·伯格斯特伦说,“其中一个例子就是内容推荐,让广播公司对成功的节目如何吸引观众有更深刻的理解。它还可以帮助他们自动符合儿童不宜电视时限后开播的规定。”
该公司2月推出了“情绪指纹API”,帮助媒体公司根据AI生成的视频数据和洞察力做出更好的决策。据该公司介绍,情绪指纹API使用计算机视觉和机器学习生成情绪数据,基于Vionlabs的推荐,打造一种独特的个人观看体验。
情绪指纹API是为测量视频播放期间的数千个因素(颜色、速度、音频和对象识别等)以便逐帧生成呈现内容情绪结构的AI导出的指纹而设计的。
有限制
AI/ML赋能系统现在在电视制作/播出流中扮演许多角色。但他们并非无所不能;至少现在还不能。
“为了让机器学习工具有效地工作,你需要不断地对模型进行微调,并需要大量准备充分的数据,”安纳塔拉曼说,“将会出现需要人工干预的具有挑战性的情况。然而,对于大多数内容,AI/ML可以提供极高的准确性。”