2025年11月,著名AI学者李飞飞发表万字长文《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》中文《从语言到世界:空间智能是AI的下一个前沿》系统阐述了空间智能的突破意义,并预言这一能力将成为未来十年人工智能进步的核心驱动力。
核心论点:什么是“空间智能”?为什么关键?
李飞飞在文中强调,以语言或平面图像为基础的现有AI —— 虽取得了惊人成果,但本质上仍像“在黑暗中造文字匠人”。它们“会说话”、“会画图”,但并不真正“理解世界”。她指出,空间智能是人类认知与行动的根本基础——我们能导航、抓取、建造、移动,因为我们能理解三维空间、物体之间的关系、物理规律与因果结构。若 AI 要真正具备类人智能,就必须具备这种能力。

李飞飞指出,空间智能是人类认知的基石,也是AI迈向更高级理解与交互的关键。从文字到世界,AI必须跨越语言边界,建立能理解、推理、生成和操作现实及虚拟空间“世界模型”。这些世界模型超越当前的大型语言模型(LLMs)能力,将推动AI实现更深层次的创新与应用:
- 让机器人真正能与人类环境高效互动
- 重塑科学发现、材料研究和医学领域流程
- 赋能沉浸式娱乐、智能家居等现实应用
- 推动健康医疗、日常辅助、创造力等方面突破
- 突破语言模型瓶颈
当前AI主流技术以大语言模型为核心,虽然能高效地处理文本与抽象知识,但在现实空间、物理推理与交互操作上存在根本局限。李飞飞以哲学家维特根斯坦“语言的界限是世界的界限”为引,强调AI的未来远不止于语言,而是空间认知与行动的创新,为此,她主张构建具备“世界模型 (World Models)”的新型 AI,其必须同时具备三项关键能力:
- 生成性(Generative):能够生成遵守物理规律、空间一致性的三维 (或高维) 世界;
- 多模态(Multimodal):不仅能处理文本,还能处理图像、视频、几何、动作、物理反馈等多种模态输入;
- 交互性(Interactive):不仅能生成静态世界,更能模拟动态变化、因果推理,以及在空间中与物体 / 环境交互 (移动、抓取、变形...)。

她认为,这样的空间智能,将是AI 从“文字/图像工具”跃升为“世界构建者、物理交互者、智能行动体”的根本前提。
原文核心段落中文翻译
1. 空间智能的意义
空间智能是我们认知能力的基石。无论我们是被动观察还是主动创造,它都在发挥作用。它驱动着我们的推理和规划,即使是最抽象的话题也不例外。它对我们与他人或环境的互动方式至关重要。今天,顶尖AI技术如大语言模型正在改变我们获取和处理抽象知识的方
然而,它们仍然是黑暗中的文字匠:能言善辩但无经验,知识渊博却缺乏现实根基。
2. 语言的界限与世界模型
哲学家维特根斯坦曾写道:“我的语言的界限就是我的世界的界限。”我并非哲学家,但我知道,对AI来说,语言远不止于此。空间智能代表着超越语言的前沿——连接着想象、感知和行动,为机器赋能人类生活开辟了无限可能,包括医疗保健、创造力、科学发现和日常辅助等领域。
大模型出来之前的AI集中在视频领域,未来的AI应该在视频、音频感知方面全方位推进才是方向,人工智能应该具备人所具有的感知能力,视觉、听觉、触觉、嗅觉甚至说话的能力都是必须要具备的能力。

3. 推动AI进步的下一个十年
那么,我们如何构建具有空间智能的人工智能?如何才能让模型像科学家一样推理、像工业设计师一样精确设计、像讲故事的人一样创造、像急救人员一样流畅地与环境互动?要做到这一点,我们需要比大语言模型更具雄心的方案——世界模型。这是一种新型生成模型,其理解、推理、生成和交互能力远远超出当前语言模型。
4. 空间智能AI的挑战与未来
真正具有空间智能的世界模型,必须能生成无穷无尽、丰富多样的模拟世界,并保持几何、物理和动态上的一致。随着空间智能世界模型推理与生成能力的提升,我们可以设想,机器不仅能预测世界的下一个状态,也能预测基于新状态下的下一步行动。这一挑战的规模超过了人工智能以往面临的任何挑战。
李飞飞定义AI未来的展望
李飞飞在文末强调,空间智能AI不是取代人类,而是补强科研、护理、创造等多维能力。世界模型和空间智能,将推动人类和AI在现实与虚拟世界深度融合,开启新的科技文明时代。

原文标题:From Words to Worlds: Spatial Intelligence is AI’s Next Frontier
初次发布日:2025年11月10日
感兴趣的可以关注本公众号私信留言,回复英文原文链接和中文全文翻译链接,自行下载。
李飞飞(Fei-Fei Li)简历

现任:
斯坦福大学计算机科学系教授(终身教职)
斯坦福人类中心人工智能研究院(HAI)联席院长(Co-Director)
美国国家工程院院士(NAE)
World Labs / AI 公司联合创始人(2024)
前谷歌云AI/ML 首席科学家(Chief Scientist)
一、教育背景
普林斯顿大学物理学学士(BA)
加州理工学院(Caltech) 电子工程博士(PhD, Electrical Engineering)
二、学术与工作经历
➤ Stanford University(斯坦福大学)
计算机科学系教授(终身教授)
斯坦福HAI(Human-Centered AI Institute)联合创始人 & 联席院长
主要研究方向:计算机视觉、认知科学、机器学习、AI与社会
➤ Google / Google Cloud
2017—2018:Google Cloud AI/ML 首席科学家
推动谷歌AI democratization 战略,将 AI 技术普惠化
➤ Princeton、UIUC、CMU、奥本大学(曾任科研/教学职位)
三、主要研究贡献
1. ImageNet 的创立者(世界级里程碑)
2009 年创建 ImageNet 数据集,推动了深度学习爆发
促成了AlexNet 在 2012 年突破性成功
被誉为“视觉领域的 MNIST 乘以 1000”
ImageNet 被认为是深度学习时代的起点
2. 具身智能(Embodied AI)与三维视觉的推动者
长期推动机器人视觉、3D 推理、空间智能研究
2024-2025 强调 “从语言到世界(From Words to Worlds)” 理念
提出AI 的下一阶段是 空间智能(Spatial Intelligence)
3. AI for Humanity(以人为本的 AI)理念提出者
主导斯坦福倡议:AI 应遵循伦理、开放、普惠
推动AI 在医疗影像、老年照护、教育等领域落地
四、荣誉与奖项
美国国家工程院院士(NAE)
美国艺术与科学学院院士(AAAS)
ACM Fellow
IEEE Fellow
《Nature》《Science》等顶刊常年作者
MIT TR35 “35 岁以下创新者”
美国政府科技顾问委员会委员
多次入选Time 100 AI、Forbes Women in Tech 等榜单
五、创业与产业贡献
World Labs(AI 空间智能公司)联合创始人(2024)
获超过2.3 亿美元投资
目标:打造具备空间智能(3D/物理推理/具身智能)的下一代世界模型
被视为未来十年AI 的新方向(World Models)
推动医疗与社会AI
建立AI 医学影像项目
促进AI 在医院、老年护理、应急响应领域落地
六、出版与作品
著作:《The Worlds I See》(中译名:模拟世界 / 我看到的世界)
2023 年出版
讲述她作为一名华裔女性科学家的成长、奋斗与AI 思考
被誉为“AI 教母的自传”
七、社会影响与评价
被媒体称为“AI 教母(Godmother of AI)”
ImageNet 贡献被认为:
> 直接改变了深度学习历史,开启了现代 AI 时代
她的研究、政策理念、产业推动,让她成为全球AI 领域最具影响力的科学家之一