微博

QQ

挖一挖那些隐藏的人工智能

2018-07-04 依马狮广电网


  在我们进入人工智能世界时,优化内容制备、分发、安全和呈现的新概念和理论正在涌现,更有前途的是基于AI和机器学习的下一代高度直观网络,它将对OTT视频流媒体产生重大的积极影响,促进其接受和发展,并且增强内容安全。

挖一挖那些隐藏的人工智能

一.缓存和停格让我被迫放弃你

  视频技术发展迅猛,从模拟标清(SD)黑白电视发展到流式传输到无数连接设备的OTT数字高清(HD)。尽管流媒体视频服务已经相当普及,但终端用户还是不可避免地会遇到各种意外的缓冲问题。即便你的带宽已经远远满足需求,当前仍没有切实的解决方案。

  根据思科最新的视频联网指数,到2021年视频流量将占全部互联网流量的82%,比2016年的73%上升9%。此外,思科CEO罗卓克预测2020年每小时将有100万设备加入网络。OTT流媒体最大的挑战是提供最高的体验质量(QoE)和服务质量(QoS)。

  根据马萨诸塞大学R a m e s h K.Sitarman发表的一篇论文,观众开始放弃2秒后才能观看的视频。缓存和停格可能产生不好的用户体验和数字广告收入损失。为最小化缓存,使用了自适应码率(ABR)流传输,根据需要和带宽波动转换码率。

  ABR概念解决部分OTT流媒体

的挑战,但考虑到移动用户位置和连接的动态变化,ABR无法完全消除移动手持设备上的再缓存和停格,因此为使再缓存成为过去,需要更多的解决措施。此外,其它像快进快退这样的复杂性也往往导致播放很卡,产生不好的用户体验。

挖一挖那些隐藏的人工智能

二.“冥想盆(Pensieve)”隐藏的人工智能(AI)

  这些挑战的应对方案隐藏于人工智能(A I)和机器学习的新技术概念中。麻省理工学院的计算机科学和人工智能实验室(CSAIL)开发了冥想盆(Pensieve)神经网络——一种利用机器学习,根据网络条件选择不同的现有算法(如基于速率的算法、基于缓存的算法)的AI系统。冥想盆神经网络提前预测连接问题,并且预先调整流媒体分辨率以产生足够的播放缓存,实现无缓存的用户体验。

  事实上,这种方式没有完全消除缓存,但将有助于减小缓存,使我们离无缓存视频流式传输更进一步。利用冥想盆神经网络的现场试验导致再缓存减少最高30%,增加关键的QoE高达25%。不过,由于可用于训练冥想盆神经网络的综合数据越来越多,将始终存在进一步提高的空间。

三.机器人学习降低总视频延迟和编码成本

  视频流式传输也能受益于机器学习技术的发展。YouTube和Netflix采用机器学习动态优化编码参数。这不仅提高QoE,而且减少要达到相同质量所需的比特数。利用机器学习的编码优化还有助于以较低带宽利用的形式优化成本。它还将降低以前用于人工优化的工程资源。在YouTube的情况中,神经网络(NN)被用于动态预测视频编码量化等级(QL),能够产生目标码率,并实现一次通过中的双通编码性能。因此,它将降低总视频延迟和编码成本。

  由于不同屏幕尺寸可能在感知视频质量上产生很大差异,连接设备的可用性(从手机到大屏电视机)产生种种挑战。考虑到静态编码方式没有把屏幕尺寸和场景复杂性纳入计算,它们的成本效益不高。机器学习算法可被用于实现基于感知视频质量的“内容感知”编码。机器学习算法可以根据屏幕尺寸和拟适用于某屏幕尺寸的目标感知质量决定编码参数。例如,为了在两个不同尺寸屏幕上有相同的感知质量,一个屏幕要求的位数可能远远少于另一个。机器学习能够帮助我们即时执行此工作,从而降低带宽消耗,节省成本。

挖一挖那些隐藏的人工智能

四.AI超越了专业“唇读员”

  AI和机器学习能够为长期存在的动态检测音像同步挑战和隐含字幕(CC)文字同步问题提供有效的解决方案,如果没有它们,则需要用眼睛观测或采用侵入探测方式(如在基带视频(SDI)和音频内插入水印或指纹)。

  牛津大学计算机科学系完成的试验使用一个被称为LipNet的AI系统,能够以93.4%的准确度识别词语,而专业人士只能达到52.3%。谷歌DeepMind(深度思维)项目完成的类似测试表明,AI很容易超越试图解译200个随机片段数据集的专业唇读员。AI成功解译全部词语的46.8%,而专业唇读者只有12.4%。采用AI和机器学习检测音像同步和CC文字同步问题的产品正在市场上出现。一种产品是Multicoreware公司的LipSync,它用AI和深度学习跟踪嘴唇的运动,测量音视频同步。

人工智能

视听科技视频号 广告
发表评论