行业资讯 2023.12.08

谷歌推出文字、图像和视频三者通吃Gemini AI

依马狮视听工场

谷歌周三宣布推出Gemini AI，这是该公司在生成式人工智能领域的最新产品。这标志着谷歌与OpenAI的ChatGPT竞争的最大尝试，后者在一年前的同一周首次亮相，点燃了主导2023年的AI热潮。

与ChatGPT目前只处理文本不同，Gemini 1.0已经在谷歌的数据档案库中进行了训练，可以处理文本、图像和视频。Pro是Gemini 1.0的第一个版本，已经被集成到谷歌的Bard英语聊天机器人中，最终将在170多个国家和地区推出。

Gemini将于12月13日开始在谷歌的云API上向开发者开放。谷歌表示，最终将推出三个版本:本周部署的Pro在用于测试AI软件能力的8个常用基准测试中，有6个的得分超过了ChatGPT的早期版本（3.5）。Ultra是顶级版本，预计用于数据中心和企业应用，将于2024年推出；Nano是谷歌安卓平台的一个版本，在谷歌Pixel智能手机上运行。其它新产品将在未来推出，只要它们通过谷歌所说的“广泛的信任和安全检查”。

新版Bard聊天机器人“Bard Advanced”预计将于2024年推出。

它凭借其“多模态”能力，在现有的基于文本的AI平台上增加了图像和视频分析能力。

“Gemini最明显的优势来自于它理解视频和音频并与它们互动的能力。这在很大程度上有意为之：多模态从一开始就是Gemini计划的一部分。谷歌还没有像OpenAI创建DALL-E和Whisper那样，为图像和语音分别训练模型；它从一开始就建立了一个多感官模型。”