【摘要】 “元宇宙”、“数字人”是近两年最火的两个名词,苏州市广播电视总台(简称苏州广电)在近几年提前布局元宇宙,通过技术自主研发,并与节目制作深度融合,打通了数字人在广电系统内的各类应用场景,为新闻播报、综艺娱乐、广告宣传等提供了各类数字人的植入应用,取得了良好的口碑和效益。
【关键字】 数字人 MetaHuman UnrealEngine 动作捕捉 人工智能
一.项目背景
在去年三月份苏州市两会期间,苏州广电推出了台内首个虚拟数字人“苏小新”,采用VR+AI的方式,在虚拟演播室内对苏州市两会进行了沉浸式报道。
经过半年多的努力,技术团队在软硬件上进行了迭代升级,在身体动作、面部表情神态、主持风格上,相比苏州市两会时的报道都有了质的飞跃。
除了数字人“苏小新”的制作和播报以外,技术团队还根据台内现有的节目制作流程,对整个数字人制作的方向进行的分类,并定制了流程,除了数字人“苏小新”以外,还定制了“安家小助理”、“小斌斌”等多个虚拟数字人,既能适用于离线节目制作,也能对外进行直播互动、VR交互,满足了多样化的节目制作需求。
二.系统架构
1.系统框图
动作捕捉系统根据实现原理的不同,分成光学动作捕捉、惯性动作捕捉以及计算机视觉的动作捕捉方案。光学动作捕捉方案具有动作捕捉精度高、保真程度较高、专业度高等特点,作为高精度动作捕捉,惯性动作捕捉具有精度较高,穿戴方便,易于操作等特点,作为轻量化动作捕捉。
高精度动作捕捉系统适用于离线高精度、高保真的数字人制作,框图如图1所示,身体动作捕捉和面部捕捉的数据通过有线网络进入交换机,并被Unreal渲染引擎读取,渲染引擎内置数字人和VR场景,将数字人的声音、动捕、面捕数据进行结合,最终输出文件到台内制作网。

图1 高精度动作捕捉系统框图

图2 轻量化动作捕捉系统框图
轻量化动作捕捉系统适用于实时快速化数字人制作,框图如图2所示,动捕数据和面捕数据通过无线的方式进入到捕捉系统,同时动捕系统内集成有数字人,将摄像机信号作为背景信号,合成后输出给视频切换台。
2.高精度动作捕捉系统
(1)系统原理
高精度动作捕捉系统我台采用NOKOV(度量)光学三维动作捕捉方案,NOKOV(度量)光学三维动作捕捉系统是通过排布在空间中的动作捕捉镜头对室内空间的捕捉区域进行覆盖,并对捕捉目标上放置的反光标志点(Marker)进行三维空间位置的精确捕捉,通过先进算法进行处理和运算后,系统可得到不同时间计量单位上各个反光标记点的三维空间坐标(X、Y、Z);也可对目标物进行刚体设置,通过专业分析软件对数据进一步处理和运算,可得到目标物体精确位置及姿态等三维数据。
表演者负责根据剧情做出各种动作和表情,运动捕捉系统实时捕捉并记录这些动作后,数据通过NOKOV三维光学动作捕捉提供的SDK实时传入动画引擎。我们也可以将实时动捕数据导出后传输至Motion Builder、Maya等动画软件进行后续处理。

图3 高精度动作捕捉系统
(2)动捕系统应用
该套系统主要有红外光学动作捕捉镜头、标定套件(T型、L型)、反光表示点、交换机、动作捕捉工作站(动作捕捉软件)构成。其中L型杆用于建立系统坐标系,T型杆用于标定相机内外参数。软件用于重构目标点在空间中的坐标,并将数据实时向外发送。
动捕演播室内使用了12个200万像素的NOKOV MARS2H动作捕捉镜头,镜头布置在绿箱四周,镜头的视野范围尽可能于表演者活动区域重叠。使用校准器以及校准程序反算出摄像机准确的空间位置,从而为精确地计算出标记点的运动轨迹做好准备。
摄像头上面都集成有红外(长波)发射器,工作时发射出红外光和红光,定位目标上带有反射红外光线的标记点,两台摄像机采集到的一个点的两个二维坐标推算出这个点的三维坐标。根据原理我们就得到了定位目标身上的一定数量Marker运动的一系列三维坐标。
由于动补系统是为了获得标记点在捕捉时间内的三维坐标序列,因此对于这个标记点在时间轴上的完成呈现需要多台摄像机的参与。
在一次运动数据捕捉完成后,根据参考的骨骼模板,对表演者身上的标记点进行识别,并匹配到相应的骨骼上。在标记点数量较多、动作难度大、遮挡严重等情况时,需要通过手动的后处理加以解决。
动补数据通过插件实时传入到虚幻引擎中的人物身上,我们可以根据实时的人物形态进行骨骼微调,也可以在UE中对动作数据进行录制,制作成动作库,提高制作效率。
3.面捕捕捉系统
(1)系统原理
我台使用的FaceGood高精度面部捕捉解决方案,基于图像和3D摄像头,涵盖表情建模、绑定、面部捕捉及驱动的全流程应用,能适应我台实时与离线制作流程。方案采用了专业级头戴式红外相机头盔录制视频数据,避免了光线的影响和身体运动引起的剧烈抖动对视频质量的影响。方案使用一种基于神经网络的端到端的blendshape权值输出框架,来将演员的表情可以重定向给任何3D模型。

图4 面部捕捉系统
(2)面捕系统应用
面捕系统的制作分为离线制作流程和实时捕捉流程:
首先,演员需佩戴专业头盔进行表情录制,将录制的视频按已有点模板或自定义描点的方式进行自动跟踪或手动跟踪并生成Retargeter。手动跟踪可对于极快速且大幅、容易跟丢的动作进行训练,自动与手动训练搭配使用可以让跟踪的结果精度更高。
接着,使用Retargeter将演员与模型进行绑定,创建角色控制器模板,使用跟踪的数据驱动模型。针对项目不同特点,有两种驱动方式。第一种,对于精度要求较高的项目,可通过制作关键帧,并利用关键帧算法的方式进行数据解算,表情匹配。过程中可根据美术风格把模型调整成角色模型应有的表情,使表演实现美术可控。第二种,对于效率要求较高的项目,可通过表情库算法解算。事先针对同个演员及模型进行表情库制作,再通过表情库即可完成批量自动解算驱动,大幅提高产能。
最终导出动画文件进入UE,同身体动画一同合成输出。面部驱动动画若发现有数据抖动问题,可利用FaceGood插件中平滑功能,进行动画滤波与抽帧。
使用面捕LiveDrive插件将面捕数据流推流至网络,虚幻引擎端利用LiveLink插件将面捕数据实时接入UE渲染平台,实现3D人物模型的实时驱动或视频驱动。面捕软件端还可调节输出混合变形权重,自定义表情实时输出效果,达到最佳效果。
4.轻量化数字人制作系统
(1)系统原理
轻量化数字人制作系统可实现简便、灵活的数字人节目制作,方便携带,能够迅速布置调试,实现数字人节目生产。该制作系统采用HTC VIVE的光惯混合捕捉方案,并搭配上动捕手套、苹果手机的LivelinFace面捕以及数字人直播软件,能够实时输出数字人节目并推流到各类平台进行播出。
HTC VIVE的光惯混合捕捉系统包含2个定位基站,6个VIVE追踪器(配备6个无线接收器到电脑端),定位基站发送红外光捕捉人物在空间中的位置,固定在人物身上的VIVE追踪器将人物6个关键部位的位置和姿态数据实时发送给电脑端steamVR软件,实现人物全身动作捕捉。

图5 轻量化动作捕捉系统
苹果手机的LivelinkFace是一款免费的软件,利用手机前置摄像头和ARKit制作面部动画,借助LiveLink将网络数据实时流送至虚拟直播软件驱动数字人面部表情。

图6 LiveLinkFace面部捕捉图
数字人直播软件内部集成了各类服装、场景和道具,并支持实时在线自定义人物形象的功能,面部数据和动捕数据通过无线的方式发送给电脑端数字人直播软件,经过软件内的整合优化,达到了实时驱动数字人的效果,与此同时,搭配OBS、Vmix等直播软件,可实现数字人实时在线直播推流的功能。
三.功能实现
1.主要制作流程

图7 各类数字人节目制作流程
数字人的节目制作根据应用场景、制作精度、人物形象等可分为多个制作流程,结合我台的实际制作需求,我们定制了高精度和轻量化两套数字人制作流程,如上图7所示。
高精度数字人制作对数字人的模型、动作等精度要求最高,因此数字人物的模型和对应场景需要提前定制并进行绑定,同时为了达到更自然的播报状态,数字人物的身体和面部动作都需要通过专业的设备进行采集并在离线软件中完成人物动画的制作,最终将人物、场景、动画进行结合,优化输出,定制播出机位,离线生成完成的视频素材进行播出。
轻量化数字人做做对应数字人的模型、动作等精度要求中等,人物模型、场景、机位都可以快速自定义完成,结合轻量化动作捕捉的硬件,实现快速化的数字人节目播出。轻量化数字人的节目制作更加灵活多样,支持横竖屏直播、绿箱抠像、切换台直出等各类播出方式。
2.“非凡十年,大美中国”苏州篇数字人报道
此次在我台举行的“非凡十年,大美中国”的二十大专题报道中,我们使用高精度动作捕捉系统搭配面部捕捉系统,完成了苏州台虚拟数字人“苏小新”从播报到跳舞的各类播出应用。

图8 “非凡十年”专题报道
首先,在数字人“苏小新”播报声音的处理上,我们采用了总台自主研发的AI语音库进行合成,将每一期需要播报的文字输入AI语音库,在转换成对应的音频文件。
其次,为了达到更自然的播报和演唱状态,我们分别请了总台的主持人和说唱演员,进入到我台的高精度动捕演播室内,进行了身体动作的录制,并在后期反复优化调整,使虚拟了,达到最优的播出状态。

图9 专业动捕演员
最后,为了达到最好的播出效果,我们采用的最新的Unreal Engine5渲染架构,对播出场景内的各处细节、布光进行了调整优化,并和综艺节目部的导演,一起设计播出环节中人物的运镜、构图等细节,最终呈现出逼真且美轮美奂的播出画面。

图10 数字人运动镜头设计
3.VR全景数字人介绍
除了将数字人“苏小新”的播报放在手机和电视端以外,技术团队还将数字人与VR头盔进行了对接开发,操作人员置身VR全景中,与数字人和里面的场景进行沉浸式的互动,相比与以往的VR全景视频,我们主要有一下特点。
(1)将数字人放入VR全景中,通过外控手柄与数字人进行交互,与此同时将VR头盔中显示的视频串流到大屏电视端,实现大屏和VR头盔的同步显示;

图11 VR数字人播报
(2)除了支持VR全景图片和视频外,还在VR场景中植入虚拟导航点,能够实现不同VR场景之间的切换,并在VR场景中嵌入文字、图片、视音频等各类元素,实现VR全景的交互功能;

图12 VR视频串流
(3)支持多种VR场景的互动切换,通过在VR全景中植入虚拟的导航点,我们可以实现不同VR景别的切换,
4.轻量化数字人“小斌斌“
为了满足台内综艺节目“施斌聊斋”节目组的制作需求,我们经过一个多月的时间,给节目组定制了一个“小斌斌”的轻量化虚拟形象,主要用于节目日常的播报。3D卡通数字人“小斌斌”模仿了苏州广电知名主持人施斌的形象,“小彬彬”较大的头部突出了人物特点和面部表情,短小的身体和四肢娇小可爱。”小彬彬“可以制作一些简单的播报节目,或在带货、娱乐互动节目中充当角色。

图13 主持人虚拟化
数字人“小斌斌”的播报方式采用数字人与真实场景相结合的方式,因此我们将数字人的形象通过抠图合成到演播室摄像机的画面上,并调整到与真人合适的大小比例,达到与真人同台实时播出的效果。

图14 数字人和真人同台演出
四.总结与展望
随着近今年数字人制作技术的不断发展,原先适用于影视动画的一些数字人制作技术,已经渐渐开放,一些中小心的新媒体甚至是普通的个人,都开始运用数字人技术来实现播出的推广应用,作为传统媒体向新媒体转型的我台,也同样踩在了数字人的风口上。
在数字人相关节目的创作中,作为优势,我们有专业的策划和制作团队,可以快速对接台内和市场,实现数字人产品的应用化落地,不管是传统媒体还是新媒体端,在渠道的分发上也可以做到多样化。
与此同时,数字人物模型的建立、场景的制作以及动作的绑定,需要专业化的人才去做开发,技术中心数字人制作团队还属于一个刚起步阶段,需要通过不断的操作、应用去丰富和提高我们的制作水平,这是一个不断积累的过程。
通过数字人“苏小新”及其他各类数字人的制作,我台正式开启了元宇宙的大门,我们也将不忘初心,砥砺前行,不断朝着更高的目前发展前进。