谷歌的“深度观察视频系统”是由3D打印在一个200美元的丙烯酸半球上的价值6000美元的体育运动摄像机(通过同步电缆连接)构成的。它记录了46个看着不同方向的场景视频。

在SMPTE2020大会第二天的主题演讲中,保罗·德贝维奇概述了他是如何在他所谓的真实世界和虚拟世界之间架起桥梁的。这是该谷歌研究中心的资深科学家和南加州大学创新技术研究所的研究教授,在他职业生涯的很长时间里一直在做的事情。
德贝维奇在他的主题演讲“光场、光舞台和虚拟制作的未来”开场白时,概述了“通过照明连接真实和虚拟世界”的各种技术。这要追溯到1990年末加州大学伯克利分校对基于图像的照明(IBL)的研究。这导致了第三光舞台(Light Stage 3),它由156个RGB彩色LED灯组成。它最初在2002年的SIGGRAPH上演示,在大卫·芬奇2010年电影《社交网络》中出现,当扮演温克莱沃斯双胞胎的艾米·汉默的脸被合成到他的替身演员脸上时,使真实和数字人物相配。
德贝维奇说,要使这样的作品令人信服,关键是要使被置入场景中的物体或人的灯光看起来真实和自然。他继续说,即使达到了这一点,仍然有没有光或原始镜头内的其它东西(如舞台布景)反射的限制。
幸运的是,实现这一方法的技术已经得到了发展。在2013年桑德拉·布洛克的电影《地心引力》中,照明人员使用9mm LED板在女演员的头盔面罩上产生了良好的光反射。在中国电影《阿修罗》(2018年)中,这种做法被进一步采用,在这部影片中,一个巨大的(85x68x27英尺)LED舞台被搭建起来,使演员被合成到一个有完全相配的照明的虚拟山地场景。
德贝维奇在谷歌所做工作的最新进展是“深度视角视频系统”,这源于他的想法,即使用一个鱼眼/圆柱形结构中的球形小摄像机产生更沉浸式效果。它由3D打印在一个200美元的丙烯酸半球上的价值6000美元的体育运动摄像机(通过同步电缆连接)构成的。它记录了46个看着不同方向的场景视频。
一个经过训练的神经网络算法将46个视频转换成大约100个RGB alpha通道的球面层,这些球面层复制所有拍摄的视图以及它们之间的所有视图。通过压缩和渲染,这100层减少到约16层具有高分辨率alpha纹理的深度映射网格(低分辨率几何结构),可在移动VR硬件上被有时间稳定性的压缩和实时传输,最终形成4K或8K视频流。
德贝维奇说,这样做的结果是,视频可以在VR中被记录和观看,人们可以在一个场景中向四周观看和舒适地移动,有更强烈的身临其境的感觉。