【摘要】 随着媒体的融合发展,超高清视频后期制作要求也是越来越高,对后期字幕制作效率提出了新的目标。Ai唱词字幕应运而生,AI唱词突破以往的传统模式,从语音转写到视频时间线的字幕自动对齐。本文介绍了互联网AI技术在字幕制作中的应用场景,SRT字幕文件的AI生成,及其在达芬奇等国外视频软件超高清字幕制作中的应用技巧和实例。
【关键词】UHD AI SRT 达芬奇
在互联网飞速发展的今天,各行各业及互联网各大视频平台对短视频应用需求逐渐增多,对于如何快速上线视频平台,为用户提供优质的服务和更好的观看体验,已经成为了视频制作核心竞争力。青岛电视台的4K超高清制作是从2019年开始,作为全国的试点,我们也在有序的进行,最初的尝试都是使用国外的剪辑软件。但国外的软件在字幕制作方面一直是一个短板,并不适用于我国的国情。随着媒体深度融合,做为传统视频行业生产者的电视台也紧跟互联网智能AI的步伐,不断探索超高清新时代的AI字幕制作新流程和新应用场景,通过互联网智能技术把视频制作者从繁杂的海量字幕制作中解放出来,面向新的未来,迎接新的挑战。
一. 视频字幕作用及外挂字幕格式
1. 视频字幕作用
字幕已经成为当今视频节目不可缺少的一个组成部分,它与电视的图像、声音、特效等一起组成了一种共时间共空间的多方位多信息渠道的传播手段,完成表情达意的功能,提高了单元时间内信息传播的速度和质量,除了对某些视觉部分起到有效的强调作用外,还能给人们以视觉上的美感。更重要的是,将语音内容以字幕方式显示,有利于观众识别和理解视频中的不同国家语言、不同地域方言。
2.外挂字幕格式
外挂式字幕格式,一般分为图形格式和文本格式两类。图形格式字幕是由idx和sub文件组成。idx相当于索引文件,里面包括了字幕出现的时间码和字幕显示属性等,sub文件就是存放图片格式的字幕本身了。idx+sub可以存放很多语言的字幕,提供了在播放的时候的选择。
比较流行的文本字幕有srt、smi、ssa和sub格式,因为是文本格式,所以文件就比较小了,一般几百K,其中srt文本字幕制作最为规范简单:一句时间代码加一句字幕。
本文重点介绍字幕SRT文件的AI生成,及其在达芬奇等国外优秀软件字幕制作中的应用技巧和实例。
二.互联网AI技术在字幕制作中的应用场景
从“互联网”到“互联网+AI”,人工智能技术正在为经济社会发展带来深远影响。互联网AI技术开辟了字幕制作的新技术和新流程,极大提高了效率,尤其是唱词字幕。
1.语音转文字AI
传统模式是一边听同期采访声音一边用电脑打字,然后再根据画面对文字进行纠正、整理、排版,这种做法费时费力。现在可以通过讯飞听或者微信听这种语音自动识别技术,将视频、现场直播场景中的音频实时转换成文字,用于实时字幕展示,提升直播效果,彻底将制作人员从大量的字幕录入中解放出来。
图1
2.Arctime制作AI字幕
达芬奇、PREMIERE等软件虽然说是外国的优秀视频剪辑软件,但在唱词字幕方面确实有些欠缺,唱词方面往往根据声音通过标题字的方式一个一个的上,虽然说准确率高但时间效率确实很低。为了实现高效率,这种国外软件往往支持SRT外挂字幕或者第三方软件的方式实现AI字幕功能。经过多方面的比对以及实践后,我们选用了第三方唱词软件Arctime。
Arctime是一个加持AI的可视化字幕创作软件,可以跨平台运行在Mac、Windows、Linux上,具有全自动语音转写功能,只要导入视频,就可以全自动根据视频中的语音生成字幕文字+时间轴,一站式完成快速制作。字幕编辑完成后,仅需单击“导出字幕文件”按钮,即可轻松完成字幕压制工作,如图2。
图2
制作字幕就是这么简单,输出srt字幕。
第一步,在Arctime软件里导入视音频素材到时间线轨道。
图3
第二步,字幕编辑区导入唱词文本文件。
图4
第三步,根据视音频文件我们在Arctime进行唱词的拍打。
图5
图5和图3的区别能够看到在声音轨道上多了一层字幕轨道,这就是我们要导出的唱词。
第四步,选择导出字幕文件,勾选srt然后导出。
图6
这个文件就我们要srt文件,方便在后面的达芬奇或者pr软件中使用。
2019年开始,我们用以上方式尝试4K字幕制作,没有达到预期效果,例如:语音撰写按量收费问题,语音转写只能是标准的普通话,稍微有点口音的转写基本是错的、混乱的,操作过程中也比较麻烦,在字幕的纠正和断句上同样消耗了大量的精力,于是继续寻找更优的解决方案。
3.互联网线上制作AI字幕
现在好多的网站已经实现了线下软件的好多功能,包括网页剪辑、网页修图、网页语音转写等。网页的语音转写功能可以实现我们的诉求。但存在同样的问题,普通话发音转写正确率很高,有点口音的话文本基本是混乱的,还要进行人工纠正等操作。
图7
导入音频文件到网页然后通过语音转写工具经过几分钟的等待导出srt字幕文件,所有唱词字幕的听和敲打全部被自动替代。
三.超高清AI字幕制作中实践案列
2020年,我台成立专门的4K研发小组,开展4K拍摄、制作和演播室录制方面专项研究,对超高清AI字幕制
作的探索更加深入。在解决语音转写辨识度较低,智能化不高的过程中,我们欣喜地发现剪映软件的自动语音识别和自动字幕轨道功能符合我们的需求。经过测试,语音转写没有问题,辨识度也相应的有些提高,字幕轨道能够准确的匹配到时间线上,但怎么才能把字幕文件导出为srt,让其它软件共同来使用?最终我们采用python来很好地解决了。
1.巧用剪映软件AI字幕工具
剪映作为抖音出品的视频剪辑软件,是从互联网上火起来的,它的免费和方便快捷性让许多的互联网视频行业都在使用它,它的自动生成字幕的功能受到众多视频制作人的青睐,比讯飞、网易见外处理效率高。值得一提的是软件的语音识别准确度是前所未有的强大,不管是标准普通话还是口音都可以较为准确的转写成文本,自动断句什么的也十分的方便。
我们使用它主要是它有一个内部的语音转文字的特效,通过语音转文字在软件里面自动生成唱词文件。
【操作步骤】:把素材导入到时间线上,选择文本菜单里的“识别字幕”功能(针对人物的语言对白、采访等),或者“识别唱词”(MV歌曲唱词的提取),然后点击“开始识别”按钮。如图8。
图8
自动识别后时间线上字幕已经自动智能化完成了,如图9。
图9
2.剪映json转srt字幕格式
默认情况下剪映是以自己专有的json格式来存储字幕信息的。
剪映软件在使用过程中会建立一个工程文件,在工程文件下带有一个json的文件,这个文件会带有工程里面所有的信息,包括语音转写的文本、时间码,我们就是通过python来分析、解析这个json文件,把json文件转换为srt格式的标准字幕格式。
剪映json转srt流程如下:
运行python3执行to_srt.py
这里的python3是python运行文件的一个执行命令to_srt.py是我们用文本编写的python的执行文件,里面是编写的一些python语言,用于解析json文件,从而提取文本信息和时间信息等输出txt和srt字幕文件。
命令执行结果是,查找到一个字幕文件,并可以命名导出的文件名,如本例中为:mv。
成功导出mv.s r t和mv.t x t 文件。
图10
3.达芬奇srt字幕的导入、修改、完成最终的成片
下面以我们制作完成的一个超高清MV视频来演示srt字幕在达芬奇软件中的应用操作。
电脑桌面的mv.srt文件是我们通过执行python后提取的srt文件。
图11
第一步,在达芬奇软件素材管理中右键导入我们需要的srt字幕文件。
图12
这个mv文件就是我们导入的srt字幕文件,下面我们就会放置到时间线合适的位置。
图13
第二步,拖拽mv.srt文件到字幕轨道,根据声音波形把字幕放到时间线与音频对齐的位置在字幕轨道我们可以修改出现问题的具体字幕。
图14
第三步,在字幕轨道的轨道风格标签下我们可以修改整体轨道字幕的字体、字色、大小、位置、字边、字影以及字幕的背景。
图15
图16
第四步,在字幕轨道校正和调整完所有的字幕后,我们对字幕的背景进行了添加,让字幕的效果更佳的赏心悦目。
图17
图18
第五步,在所有的包装结束后我们要输出成片。这里我们要注意一点,在达芬奇“支付”页面下,字幕格式设置成“烧录到视频中”,这样视频和字幕就是在同一个画面里了。
图19
2021年以来,我们使用剪映软件先进的语音识别技术和精准切分字幕功能,实现字幕时间轴匹配;通过python解析json文件生成标准srt字幕格式,提高了语音转文字的准确率,解决AVID、PR、达芬奇等视频唱词制作效率,完善了超高清唱词AI字幕的流程。同时国内的索贝、大洋视频制作公司字幕制作也采取了AI智能唱词的形式,无论是本地的讯飞语音数据库还是网络的讯飞语音语音数据库,都实现了唱词自动化。相信随着时代的发展AI智能会越来越好,视频行业也会乘势而上走上AI的快 车道。B&P
发表评论