AI之于音视频应用的三问三答

2024-07-05 快思聪中国依马狮视听工场

AI人工智能是当今社会热门话题。正面报道盛赞它为一位出色的虚拟助手，而负面声音则担忧孩子们可能过于依赖它来完成学业。更令人不安的是，一些悲观的预言警告说，未来机器人不仅可能取代人类的工作岗位，还可能带来致命的威胁。

尽管这项技术本身既有巨大可能也有潜在危险，但最好记住，人工智能只是一款可以被用于极好目的的工具。

尤其在现代混合办公环境中所采用的视听系统里，这一点显得极为贴切。

AI之于音视频应用的三问三答

“在快思聪，我们的人工智能解决方案集成1 Beyond智能摄像头和快思聪Automate VX语音激活追踪技术等一系列扬声器解决方案。这些产品利用‘视觉人工智能’技术，为用户提供卓越的视频会议体验，并能与Microsoft Teams® Rooms和Zoom Rooms®软件等平台无缝协作，充分发挥各自的人工智能技术优势。”

这究竟意味着什么？让我们通过回答三个最常见的问题来逐一解析：

什么是“视觉人工智能”，它与智能视频有何不同？
我们需要哪些硬件设备？
使用系统时，我需要关注哪些问题？

AI之于音视频应用的三问三答

| 什么是“视觉人工智能”，它与智能视频有何不同？

您可能已经注意到“智能视频”与“视觉人工智能”被交替使用。更准确地界定这两个概念的方法是：视觉人工智能是实现智能视频体验所必需的关键技术。其结果是，该系统能够给予面部和动作检测自动追踪并定位房间中的演讲者——这在包含远程参与者的会议中极为重要。您希望那些虚拟与会者能看到会议室中人员的手势和表情。当远程工作者能够捕捉到所有这些非语言信号时，他们的参与度会得到增强。

快思聪在智能视频领域的产品管理总监Rony Sebok，为在线出版物《AI for All》撰写的一篇文章可以很好地解释这项技术的强大能力：

视觉人工智能可用于创造多样性体验，包括“团体构图”（调整画面以显示所有参与者）、“自动构图”（当一个人讲话时调整画面）、以及“演讲者追踪”（随演讲者的动作而在空间中移动）。它还可以进一步在房间中自动切换活跃的发言者（“发言者追踪”），将房间的多个视角合并为单一视频流等。

就像其它人工智能实例一般，视觉人工智能正在逐渐发展完善。“人工智能已经运用至统一通信中一段时间了，但现在我们正在开发更加高效的‘智能场景控制盒’解决方案，”快思聪市场高级总监Sam Kennedy表示。人工智能也被应用于音频解决方案中，它能够屏蔽多余的噪音，甚至可以通过声音来识别人。

AI之于音视频应用的三问三答

不久之后，人工智能将辅助这些系统实现“环境智能感知”——换言之，对空间进行更深入的信息收集。“这些程序正在学习判断房间内是否配备白板，并调整系统摄像头以确保所有远程参与者都能清晰地看见白板，”Kennedy指出。“未来，人工智能还将能够识别白板——甚至整个会议室——是否需要为下一场会议进行清洁整理。”

系统将能够收集更多的环境信息，Kennedy表示：“是否需要在进行演示时降低窗帘？当系统感应到房间内满员时，是否需要调节温度？”最终，人工智能将能对远程与现场的场地体验两者都产生影响。

| 我们需要哪些硬件设备？

硬件设备的配置选项有很多。基础级解决方案常见于配备多个摄像头的视频会议条，这些摄像头能够实现在发言者之间自动切换。对于专为高端会议空间设计的大型系统，可以采用搭载智能视频技术的摄像头进行驱动，或与基于麦克风信号来追踪发言人的解决方案相结合，以便自动跟随演讲者或对话。

快思聪可以提供所有选项配置，包括我们的1 Beyond智能PTZ摄像头，它具备光学变焦功能，能够清晰捕捉房间内每位参与者的影像——即使是那些距离镜头60英尺远的人。光学变焦在摄像头的光学镜头内部发生，而数字变焦则是通过放大和裁剪图像来实现特写效果。后者会降低图像的像素精度，随着放大倍数的增加，清晰度也随之会降低，削弱了摄像头捕捉关键非语言信号的能力。

另一个选择是快思聪的Automate VX语音激活的发言人追踪解决方案。该系统与较大空间的适配性最高，因为您可以同时配置12个摄像头来处理重要会议空间的需求。

我们的目标是通过视觉人工智能技术实现流畅追踪与合理构图，提供清晰的特写画面和多角度视图，使远程参与者得以体验卓越的广播级视频品质。Automate VX解决方案能够自动构图并将发言人置于画面中心，即便他们移出最初的位置。这样，参与者便可自由活动，无需担心自己是否会离开摄像头的拍摄范围。

Automate VX解决方案还具有“重构图”功能，可自动将人物置于镜头画面中心。人工智能在此发挥关键作用，它能够识别动作幅度的大小。Kennedy解释道：“例如，如果有人轻微地调整坐姿，人工智能不会认为需要重新调整镜头画面构图。”这减少了不必要的摄像头移动，有助于避免频繁或持续性晃动而让观看者感到眩晕。

AI之于音视频应用的三问三答

| 使用系统时，我需要关注哪些问题？

简单来说：隐私和安全是需要持续关注的动态目标

在隐私保护方面，视觉人工智能（Visual AI）通常不会引发警觉，直到它开始识别特定个人。这种识别功能涉及的不仅仅是视觉上的追踪，还包括其他方面。比如，如果人工智能程序识别了您的面容，这是否侵犯了您的隐私？程序分析并报告会议中的“情绪”，其伦理问题又该如何界定？人工智能是否能“领会”讽刺意味——它能否分辨出玩笑与真正具有负面影响的评论之间的区别？

Kennedy表示，所有系统的默认选项应该是允许用户“选择退出”。“我认为，只有征询人们是否同意被识别和追踪才符合伦理道德，特别是对于生成性人工智能或虚拟助手程序，”他指出。“如果用户同意，他们可以通过点击按钮立即选择加入。”同时，他又提到地方法律也在应对这一问题：“在美国的一些州以及全球的许多地方，都明确禁止使用人工智能程序在环境中识别个人。”

考虑到安全性问题，在某些特定环境中将数据上传至云端是不被允许的。“在信息被政府或企业视为机密的情况下，您是不会希望人工智能将任何数据发送至外部的，” Kennedy说。“这正是集成了人工智能的摄像设备——也就是‘边缘化人工智能技术’——发挥作用的的场景了。”

然而，在会议进行时收集数据有很大的优点。“假设有一位参会者是我们常说的沉默类型，”Kennedy解释。“想象一下，如果系统能够提示会议主讲人注意到某个人一直保持沉默——他们可能比较害羞，需要一点鼓励来推动他们分享想法。”

“我们探讨‘会议中的平等’——确保每个人都能看见和被看见——这通常被视为是视觉层面的问题，但是能够双向聆听，或协助创造和分享能力也同样重要。”

特色产品

AI之于音视频应用的三问三答