迪斯尼研究院和加州大学欧文分校开发了一种新的人工智能增强的视频压缩模型,称这表明深度学习可以与现有的视频压缩技术竞争。

这种压缩器仍处于早期开发阶段,它与传统的编码解码算法(如H.265)相比,在专门的视频内容上训练时,产生较少的失真,每像素比特率更小。研究团队补充说,它在下变换的公开可用的YouTube视频上取得了可媲美的结果。
研究团队首先使用他们所描述的变分自编码器缩小视频的尺寸,此编码器为一种神经网络,它以一系列动作处理每个视频帧,结果得到一系列压缩的数组。然后,自动编码器尝试撤消此操作,确保数组包含足够的信息恢复视频帧。
该算法依靠一种叫做“深度生成模型”的基于AI的技术,尝试根据之前的情况猜测图像的下一压缩版。
此算法通过将自编码器的实值数组取整来编码帧内容。研究团队表示,整数比实数更易存储,原因是后者有很多小数位。最后一步是对数组施加无损压缩,实现精确恢复。研究人员说:“关键是,这种算法是由神经网络告知预期的下一个视频帧,这使得在无损压缩方面非常高效。”
根据加州大学欧文分校计算机科学助理教授Stephan Mandt表示,总体上这些步骤使这种方法成为一种“端到端”视频压缩算法,“这里真正的贡献是将这种基于神经网络的深度生成视频预测模型与其它属于压缩算法的一切(如舍入和基于模型的无损压缩)相结合。”
Mandt补充说,研究团队将继续开发一个真正的、可应用的视频压缩器。一个挑战是,他们可能需要压缩神经网络本身以及视频。
“因为接收器需要一个训练过的神经网络重建视频,你可能还需要考虑如何把它和数据一起传输,” Mandt说,“仍然有很多悬而未决的问题。这是一个非常早期的阶段。”