微博

QQ

谷歌推出文字、图像和视频三者通吃Gemini AI

2023-12-08 依马狮视听工场


谷歌推出文字、图像和视频三者通吃Gemini AI

 

谷歌周三宣布推出Gemini AI,这是该公司在生成式人工智能领域的最新产品。这标志着谷歌与OpenAI的ChatGPT竞争的最大尝试,后者在一年前的同一周首次亮相,点燃了主导2023年的AI热潮。

与ChatGPT目前只处理文本不同,Gemini 1.0已经在谷歌的数据档案库中进行了训练,可以处理文本、图像和视频。Pro是Gemini 1.0的第一个版本,已经被集成到谷歌的Bard英语聊天机器人中,最终将在170多个国家和地区推出。

Gemini将于12月13日开始在谷歌的云API上向开发者开放。谷歌表示,最终将推出三个版本:本周部署的Pro在用于测试AI软件能力的8个常用基准测试中,有6个的得分超过了ChatGPT的早期版本(3.5)。Ultra是顶级版本,预计用于数据中心和企业应用,将于2024年推出;Nano是谷歌安卓平台的一个版本,在谷歌Pixel智能手机上运行。其它新产品将在未来推出,只要它们通过谷歌所说的“广泛的信任和安全检查”。

新版Bard聊天机器人“Bard Advanced”预计将于2024年推出。

它凭借其“多模态”能力,在现有的基于文本的AI平台上增加了图像和视频分析能力。

“Gemini最明显的优势来自于它理解视频和音频并与它们互动的能力。这在很大程度上有意为之:多模态从一开始就是Gemini计划的一部分。谷歌还没有像OpenAI创建DALL-E和Whisper那样,为图像和语音分别训练模型;它从一开始就建立了一个多感官模型。”

AI 人工智能 谷歌

视听科技视频号 广告
发表评论