【摘要】 随着元宇宙概念的兴起,数字人技术作为构建全媒体传播体系的重要抓手,为广播电视媒体的转型提供了新的动力和更多可能性,推动着媒体行业从传统单一传播向智能化、数字化、个性化的多元化发展方向迈进。本文将探讨数字人的高精度表情捕捉技术在广播电视行业中的应用与优化,旨在为广播电视领域中数字人技术的进一步应用和创新提供理论支持和技术参考。
【关键词】 数字人 Metahuman实时驱动 表情捕捉技术
本文将探讨数字人高精度表情捕捉技术在广播电视行业中的应用与优化,重点分析我台的面捕建设框架、实时面捕技术优化方案以及数字人AI面捕方案的探索等内容,旨在为广播电视领域中数字人技术的进一步应用和创新提供理论支持和技术参考。
一.苏州台虚拟面捕建设框架
1.基于metahuman框架的表情绑定和捕捉技术
基于MetaHuman标准化角色生成框架,开发人员能够快速生成虚拟人,并且完美融合于高度集成的UE工作流如Control Rig、Live Link、Sequencer、Quixel Bridge等,数字人的开发和动画制作流程也更加流畅和高效。因此,在当前的虚拟人制作过程中我台数字人表情制作及捕捉技术均基于Metahuman基础框架。
对于自定义静态或骨骼网格体,UE5提供了Mesh to MetaHuman功能,只要确保模型的拓扑结构同MetaHuman一致的情况下,就可转化其他DCC应用程序中创建的3D扫描或面部模型相匹配的MetaHumans,例如我台的营销小助理就是采用的以上方法制作,应用于一档房产营销栏目。完成转化后的人物角色导入到项目中,就能作为正常的Metahuman模型进行进一步的渲染和交互开发。
在MetaHuman框架中,面部框架是一个复杂的骨骼和形状变换系统,用来控制和驱动虚拟人物的面部表情。采用了骨骼形变,blendshape与表情纹理共同作用的混合方案,表情本身来自于骨骼形变,blendshapes可以补充细微肌肉细节,表情纹理主要用于加强皮肤出现褶皱时候的表现。对于动画制作师来说,可以使用Face Control Rig来手动k帧,如图1,来制作面部动画。

图1 Metahuman Face Control Rig
2.实时和离线面捕技术的应用方向
目前市场上metahuman面部主流的方案有:ARKIT实时驱动方案,MHA离线方案,国产头盔离线和实时方案。
(1)ARKIT实时驱动方案
ARkit方案是目前面部表情实时驱动上最通用的方案,很多面捕捕捉设备厂家都会提供标准ARkit方案来驱动数字人面部表情。UE引擎端则通过Live Link插件,ARkit插件,即可支持局域网内通过Live Link传输协议的ARkit面部表情数据,最终实现人物驱动面部效果。其中最简单便捷的捕捉设备就当属苹果手机了,官方有免费软件Live Link Face,能够很好的支持UE引擎中metahuman及其他ARkit方案的数字人表情驱动,因此受到了很多影视动画制作公司的青睐。

图2 Live Link Face截图及UE实时驱动效果图示
ARkit通过从深度摄像头信息中提取关键面部节点如眼睛、眉毛、鼻梁、嘴角等位置,实时计算这些节点的移动与形变,如眼睛眨动、嘴巴开合、眉毛挑动等,来识别人物表情。ARkit可支持例如jawOpen张嘴时下巴向下、eyeSquintRight右眼眯眼、mouthFunnel稍张嘴并双唇张开等52个面部表情参数,并将这些识别到的表情系数映射到虚拟面部上,使其具有真实人物的相似表情。ARKit方案还能追踪用户面部的旋转和倾斜,从而实时调整虚拟角色的视角和动作。例如,如果用户转动头部,ARKit能够保持虚拟角色与用户面部的同步,使得虚拟角色始终能够正确地与用户互动。
(2)Metahuman Animator离线方案
Metahuman Animator(以下简称MHA)是虚幻引擎在之前Metahuman插件的再一次更新。演员视频文件可以使用苹果Live Link Face录制,一般会先录制一段包含演员前面左右侧面的视频,露出牙齿的画面用于牙齿修正,再录制正常表演视频。视频及所有的摄像头信息会一并录制保存下来。这些数据通过采集管理进入虚幻引擎后,用户确定视频中可以执行求解的关键参考帧,正面、左视图、右视图三帧,手动校准部分存在偏差的面部特征点位置,解算后就可产生脸部特征与演员匹配的Metahuman网格体。使用Mesh to Metahuman功能就能生成完整的人物资产,此处理是在云中完成的,这是工作流中唯一不在本地运行的部分,由此产生的MetaHuman则通过Quixel Bridge插件下载到虚幻引擎。继续利用MetaHuman插件可以从该演员的已采集的所有视频片段中提取面部动作,如下图3,导出为动画资源,面部动画可以无缝传输到其他MetaHuman,如下图4,这意味着演员的表演可以用于驱动任何MetaHuman角色。面部动画符合Metahuman rigging标准,仍然可以与Control rig联动,修改动画。

图3 生成与演员匹配的Metahuman网格体及其动画

图4 生成动画适配其他Metahuman模型
(3)国产头盔离线和实时方案
我台使用的国产FaceGood(以下简称FG)高精度面部捕捉解决方案基于图像和3D摄像头,涵盖表情建模、绑定、面部捕捉及驱动的全流程应用,能适应我台实时与离线制作流程。方案采用专业级头戴式红外相机头盔录制视频数据,避免了光线的影响和身体运动引起的剧烈抖动对捕捉数据的影响。
A.实时捕捉方案
使用面捕平台LiveDrive功能将面捕头盔捕捉到的数据流推流至网络,虚幻引擎端利用LiveLink插件将数据流实时接入渲染平台,实现3D人物模型的实时驱动或视频驱动。借助SeattleAI(Metahuman)技术,直驱Metahuman绑定,可支持660个BS,820根骨点,是ARKIT精度的20倍,同时也兼容ARKIT驱动方式。另外此方案还可调节输出混合变形权重,自定义实时表情输出效果,如下图5。
实时方案需要佩戴面捕头盔,头盔将视频信号传输至LiveDrive软件中,UE项目提前开启FgControlRigLib、Control Rig、Livelink插件,使用准确的动画蓝图并调用开启livelink流,就可以实现实时驱动效果,如图6。此时加入身体驱动后头部和身体是分离运动的,还需要在人物头部动画蓝图中添加骨骼的分层混合节点,完成后头部便可以跟着身体一起运动。

图5 LiveDrive软件页面

图6 FG实时捕捉方案效果图示
B.离线制作方案
首先,演员需佩戴专业头盔进行表情录制,将录制的视频按已有标记点模板或自定义描点的方式进行自动跟踪或手动跟踪并生成Retargeter,如图7。手动跟踪可对于极快速且大幅、容易跟丢的动作进行训练,自动与手动训练搭配使用可以让跟踪的结果精度更高。

图7 Tracker软件手动修正标记跟踪点
接下来,使用Retargeter将演员与模型进行绑定,创建角色控制器模板,使用跟踪的数据驱动模型。针对项目不同特点,有两种驱动方式。第一种,对于精度要求较高的项目,可通过制作关键帧,并利用关键帧算法的方式进行数据解算,表情匹配,如图8。过程中可根据美术风格把模型调整成角色模型应有的表情,使表演实现美术可控。第二种,对于效率要求较高的项目,可通过表情库算法解算。事先针对同个演员及模型进行表情库制作,再通过表情库即可完成批量自动解算驱动,大幅提高产能。

图8 关键帧解算动画
最终可以导出动画文件进入UE等渲染平台,匹配身体动画后合成输出。面部驱动动画若有动画数据抖动,可利用FG插件中平滑功能,进行动画滤波与抽帧。
3.面捕技术的优劣分析
以上介绍了我台实际应用过的几种比较成熟的面捕实时与离线工作方案,各自的优势与劣势也很明显。
对于面捕实时捕捉流程,ARKIT实时方案捕捉效果因人而异,需要专门针对面捕演员去做表情的BS优化,才能较好的达到较好的效果。直接使用的话更适合用于精度要求不高的项目。利用苹果手机的ARkit实时方案优势是使用门槛低,可快速化轻量化实现面部捕捉功能,无需额外硬件支持,但苹果手机及机型有限制,且目前没有较好头盔产品来适配苹果手机使用。国产FG方案其实是在ARKIT方案上的改良,提供了企业级硬件、软件方案,驱动算法上表现优异,针对MH有专门的面部表情算法支持离线和实时两种方案,因此最终苏州台选择了FG的方案。
对于面捕离线流程,MHA方案作为UE和Metahuman生态的一部分,使用成本低,官方支持度好且表情精度高。但是这套方案更适合数字人跟面部演员MESH比较接近的情况,才能较好还原表情。我们在实际使用中还发现有出现大小眼,面部不对称的情况,比较影响美观度。而国产FG方案可以从跟踪点到关键帧动画制作,都可以在自动与手动方案中选择且本地化部署执行,对于表情不到位的部分,可以在Maya等软件针对性做美术化表达修正,手动制作的情况会优于直接套用自动追踪模板,自动化的细节表现力明显不如MHA方案。
实时流程与离线流程相比较,实时驱动都会存在以下问题:一是由于当前实时渲染依赖于LiveLink 协议进行数据传输和表情驱动,该协议在数据传输过程中可能会面临网络延迟和数据包丢失的问题。二是pro算法优化是基于演员表演时捕捉到的表情数据进行的驱动优化,虽然能够有效地还原演员的面部表情,但在虚拟人模型上呈现时可能会出现一些不理想的效果。
总而言之,每个方案目前都有不同的优缺点,平台工具有多种,主要还得要根据具体实施的项目进行评估,选择合适的技术方案,制定更优工作流程,呈现最优驱动结果。
二.实时面捕技术的优化方案
1.优化原理
台内先前采用的是国产FG通用模型算法驱动,可以完成面部表情实时驱动,整体能够反映演员实时面部表情与口型。但在涉及人物特写画面、夸张表情等方面,发现该算法在虚拟人物眼神、口型上仍旧不够精确,连续说话也有延迟和准确性不足等问题。这不仅影响了虚拟人的表现质量,还降低了用户体验的流畅性。因此,为了更好的面部表现,我们针对固定演员进行了脸部实时驱动算法定制优化。
主要原理是利用深度学习技术,将每一帧面捕演员的动画数据(包括面部跟踪点数据、关键帧数据、动画数据),以及极限表情数据,喂给驱动模型进行训练,再经过反复的修正校准,最终输出最优的面捕数据方案,得到最优版本驱动算法。此方案中,喂给模型的表情数据量、表情质量越高,经过训练得到的表情数据越准确、越好看,因此我们将此方案应用到了我台数字人“苏意”的专门面捕演员身上,以达到最优的驱动效果。
2.优化方案

图9 优化方案流程图
整个优化方案流程如图9,具体内容如下:
第一步,录制固定演员的多个表情文件、说话文件。包括文字播报、极限复杂表情、所有元音辅音口型等视频文件来作为我们的训练视频。
第二步,使用高精度面部特征点模板进行自动追踪+手动矫正的方式完成高精度面部追踪分析,提取面部特征点。要保证跟踪点能够最大程度跟随面部运动特征,整体不抖动,快速移动时,在移动模糊中的跟踪点也同样准确。
第三步,根据录制的演员表情,使用手动k帧+动画曲线精修的方式,制作好虚拟人动画样本数据,与做好的面部追踪点匹配。训练效果取决于动画数据的准确性与精确度,因此为追求较好的效果,需要逐帧进行动画曲线调整与验证。

图10 Maya软件修正动画数据
第四步,将制作好的所有表情及相关数据输入到通用模型中进行训练
第五步,根据优化输出的算法进行面部实时驱动匹配测试,查摆出现问题表情的原因,持续优化动画数据及算法参数,重新训练,形成最终的驱动算法。
3.效果验证
优化后的算法经对比实时驱动效果发现,一是优化后丢帧现象减少,动画中丢帧的频率显著降低,提升了动画表情的流畅度。二是面部骨骼驱动器表现更加自然,优化后的算法使得面部各骨骼驱动器的运动幅度更加自然,眉毛、眼睛和口型的整体观感更加和谐,提升了虚拟人面部表情的视觉连贯性。三是特殊表情驱动器精准度提升,对特殊表情(如微笑、愤怒、哭泣等)对应的面部骨骼驱动器进行了精细调整,使其对特定表情的驱动更加精准,口型表现也更加准确。整体上,表情的还原度得到了显著提升。综上所述,定制优化PRO算法驱动模型会明显优于通用驱动算法模型。

图11 特殊表情对比1

图12 特殊表情对比2

图13 特殊表情对比3
在虚拟人面部表情驱动的优化过程中,相较于通用算法,实时驱动的精准度已有显著提升,当前的改进空间已相对有限。若想进一步提升虚拟人面部表情的准确性,或改善上述问题,则需转向离线处理流程,进行面部捕捉数据的动画精修,以实现更高水平的表情还原和视觉效果优化,从而达到更加理想的面部表情表现。
三.数字人AI面捕方案的探索
1.基于音频驱动
基于音频驱动的AI面捕是一个结合音频和视觉技术的创新应用。通过语音识别、音频情感分析等技术,从音频中提取出信息,比如说话者的情感状态、语速、音调、语音内容等。再基于情感分析的音频特征(如愤怒、快乐、悲伤、惊讶等),面部捕捉系统可以通过模型学习到这些情绪对应的表情模式、嘴型变化,并生成与音频输入同步的面部表情及口型。目前已有多家如Reallusion的iClone和Character Creator、英伟达Omniverse的Audio2face、UE5.5更新推出的新Metahuman插件都可实现基于音频驱动脸部口型动画。随着技术发展,音频驱动面部技术也在从仅仅驱动口形变化,到口型及脸部多种表情细节变化,使得整个面部表情AI生成效果越来越流畅。
2.基于文本驱动
基于文本驱动的AI面部捕捉是一种结合自然语言处理与面部表情生成的创新技术。该技术的核心是在文本输入的基础上,通过语义理解和情感分析驱动虚拟角色或人脸模型的面部表情变化。这种方法不同于基于音频驱动的面部捕捉,它主要利用文字信息(如对话、情感表达、语境等)来动态生成面部表情,而不依赖声音信号。国内例如魔珐公司推出的有言制作平台,如图14,通过输入文字,就能匹配人物表情、语音,一键生成需要的动画效果,同时还支持再编辑,适用于高效快速化生成项目,极大解放了制作人员生产力。

图14 魔珐有言平台页面
3.基于图片生成
基于图片生成AI面捕技术是利用深度学习算法,将静态的面部图像转换成动态视频。该技术可以在不需要物理捕捉设备的情况下,通过单张图片生成高度动态的面部表情或动作,广泛应用于虚拟角色动画、娱乐、社交媒体以及用户互动等领域。例如基于开源模型Live Portrait,利用ComfyUI工具可实现表情模拟、动画输出如图15,可用于输入真人视频进行对口型、特殊表情制作等。还有些软件平台如D-ID等也可生基于图片生成面部动画。

图15 ComfyUI工具图片生成动画表情
四.结语
随着人工智能技术的不断进步,AI面部动画驱动将成为虚拟人表情动画制作的核心方向之一。通过AI驱动的面部表情捕捉和生成技术,虚拟角色的表情动画制作不再依赖于传统的硬件设备捕捉,变得更方便、高效且富有表现力。最终实现效果很大程度上会依赖于驱动算法训练数据的质量和多样性。如果训练数据不够全面、种类过于单一,可能会导致AI模型无法准确识别不同种族、性别或年龄段的面部特征,从而影响模型的普适性和准确性。目前许多AI模型主要使用西方人的面部数据作为训练集,可能会导致非西方人群的面部特征识别偏差,产生误差。
目前来看,AI表情制作虽然已经能够实现自动生成面部动画,但需要大量的后期处理来调整和优化生成的表情。尤其是在需要进行细节调整时,传统手工修正可能仍然是不可或缺的过程,增加了制作的时间和成本。在实际应用中,使用AI生成的视频时长受到一定的限制,生成的视频长度通常较短,效果上精细度和自然度也无法与传统手工制作或专业动画制作方法相媲美,无法满足部分项目要求。
但我相信,随着硬件技术的不断发展以及AI算法的进一步优化,AI驱动的虚拟人面部动画制作将迎来更加成熟的技术解决方案。预计在未来的几年里,AI将成为虚拟人表情和动作制作的重要技术手段,尤其是在影视、游戏、虚拟主播等领域,会实现更高水平的交互性和视觉表现,推动虚拟人物与用户之间的互动更加真实、自然和富有情感。