依马狮原创 2025.11.11

重塑媒体工作流程：多模态和生成式人工智能如何影响视频叙事

詹姆斯·弗雷泽依马狮视听工场

多模态和生成式人工智能（AI）正在改变媒体工作流程，在某些情况下将内容发现时间从8小时缩短到几分钟，大大加快了新闻报道制作。

纽约一家24/7新闻公司的一位高管最近分享了他最大的担忧：在行业持续裁员的情况下，用较少的团队成员管理不断增长的内容需求。目前，制作人员平均需要5分钟才能在一个组织庞大的媒体库中找到一个特定的镜头。对于一个10分钟的新闻包装来说，仅仅是收集粗剪所需的片段，就需要增加整整8个小时的工作时间。随着劳动力的减少，这一过程将变得不可持续。

随着技术的快速发展，以这种速度工作并承受遗留系统负担的日子很快就要结束了。多模态和生成式人工智能（AI）正在改变媒体工作流程，在某些情况下将内容发现时间从8小时缩短到几分钟，大大加快了新闻报道制作。

增强访问和协助

云计算使远程访问数字化媒体库成为可能，将以前孤立的媒体部门连接起来，并实现实时跨团队协作。然而，近年来内容寻源和发现的最大范式转变是多模态和生成式人工智能（GenAI）。

多模态AI是一种旨在模仿人类感知的机器学习。它与更传统的单模态AI的不同之处在于，为实现对媒体内容的更详细的理解，它摄取和处理多个数据源，包括视频、静止图像、语音、声音和文本。GenAI最著名的例子是ChatGPT，它现在经常被用来回答问题和集思广益找到解决方法。

当用于媒体索引时，多模态AI从全部角度分析视频——识别人脸，阅读屏幕上的文字、标志、地标、物体、动作、镜头类型和文字记录，以生成语义描述。这使得内容制作者可以在媒体管理系统中搜索准确的片段而不是完整的视频文件，深入了解如镜头类型、场景摘要和AI识别的最引人注目的声音片段等详细资料。从本质上讲，多模态AI产生的元数据非常强大，给内容团队带来了真正的优势，尤其是在报道速度对于捕捉关键时刻、剪辑和编辑新闻以便最早发布至关重要的如美国大选等现场报道场合。

通过多模态AI实现的深度搜索体验也为围绕特定主题或类型创建小众内容包和专集以满足各种受众和广告商的要求提供可能性。

降低制作成本

媒体业还没有达到完全用AI制作大片的地步，但许多GenAI应用程序已经被证明在前期和后期制作方面改变了游戏规则，而且更多的应用程序正在迅速推出。

狮门影业最近与Runway签署了一项协议，将创建和训练一种新模式，使其创意人员能够生成电影视频。这家好莱坞电影公司希望通过“扩大、加强和补充”当前使用GenAI的业务操作，节省大量资金。

2024年11月，在东京国际电影节上，电影和科技行业的领袖们强调了AI通过大幅降低传统外景拍摄的成本，节省大量制作成本的潜力。

制作公司正面临越来越大的压力，需要用更少的资源制作出更有吸引力的内容。线性电视网和流媒体公司的广告收入喜忧参半，令他们削减了内容预算，并撤回新节目的委托制作。多模态和GenAI使得可以更深入探索大量媒体档案材料，挖掘出以前从未见过的可以重新利用的镜头：想想新的纪录片，专题片幕后和优选专辑，建立不需昂贵的拍摄的新收入来源。

在汤姆·汉克斯的最新电影《Here》中，视觉特效初创公司Metaphytics使用GenAI展现了60年间汤姆·汉克斯和罗宾·怀特的样貌变化，这项工作通常需要数百名艺术家和数月才能完成。

提示词驱动的体验很快就会让你在粗剪时更容易和更有效率。内容制作者只要告诉GenAI他们想要创作什么类型的故事，它会自动扫描并选择与叙事一致的媒体收藏中的片段。AI提示也可以用来有效地过滤内容，协助质量控制和合规。诸如“查找具有成年内容的场景”之类的命令可以帮助编辑隔离和审查可能需要修改或删除的特定视频元素，以满足特定地区的观众标准。

在存档内容中开发收入

AI能够高效分析和检索大量的存档媒体，就像掌握了阿拉丁藏宝洞的钥匙。60秒的电影镜头许可价格接近1万美元。为一个媒体机构的几十万小时视频档案编索引将花费人类登记员一辈子以上的时间。多模态和GenAI彻底改变了这一过程，不仅在编索引速度方面，而且还在该技术帮助确定要数字化、销售和再利用的磁带的优先次序。先进的AI模型正在显示出巨大的潜力，它们通过扫描纸质标签和运行表单来准确识别物理磁带上的内容。通过这种方法，具有最高转售和再利用潜力的磁带可以在大型档案数字化项目中优先考虑。

媒体和娱乐行业正在经历一个巨大的变革时期，随着重组的继续，旧的内容工作流程和系统将变得越来越不能维持。多媒体和GenAI的发展为机构提供了令人兴奋的机会，改变他们的流程，这样他们就可以用更少的钱创造更多的东西，发现他们档案中隐藏的内容宝藏，并建立新的收入来源，以推动未来的增长。

原创声明 本篇内容为依马狮视听工场原创文章，未经授权禁止转载。详情见转载须知。