李飞飞创业后首次专访:空间智能不仅适用虚拟世界生成,还可融合现实世界

不久之前,李飞飞教授的空间智能创业公司 World Labs 以及全明星的创业阵容正式亮相。

随后,李飞飞与另一位联合创始人 Justin Johnson 接受了 a16z 的专访。

在这次访谈播客中,李飞飞重点分享了 AI 领域新的研究前沿:空间智能。她说:「视觉空间智能非常根本,与语言一样根本」。

节目中,她首先介绍了自己的早期贡献 ImageNet 对计算机视觉发展的影响。之后介绍了计算和数据在 AI 发展中的作用。

然后,她定义了 AI 的终极目标以及空间智能在这其中所扮演的重要角色。最后,她介绍了自己的 World Labs 团队以及度量空间智能发展进展的方式。

以下为这次对话主要内容,enjoy~

Martin Casado

在过去的两年里,我们看到了一波涌现的消费级 AI 公司和技术,这个过程非常疯狂。而你们已经在这个领域工作了几十年。所以我们可能聊一下,你们在这个过程中做出的关键贡献以及洞见。

Feifei Li

这是一个非常激动人心的时刻,回顾一下, AI 正处于一个令人兴奋的时刻。我个人已经从事这个领域超过二十年,我们走出了上一次的 AI 寒冬,见证了现代 AI 的诞生。随后我们看到深度学习的兴起,它向我们展示了各种可能性,比如下棋。

然后,我们开始看到技术的深入发展以及行业对早期可能性的应用,比如语言模型。现在,我认为我们正处在一次“寒武纪大爆发”中。

在某种意义上来说,现在除了文本,我们还看到像素、视频、音频等都开始与 AI 应用和模型结合,所以这是一个非常令人兴奋的时刻。

Martin Casado

我认识你们俩很久了,很多人也认识你们,因为你们在这个领域非常突出。但并不是所有人都了解你们在 AI 领域的起步,所以或许我们可以简单介绍一下你们的背景,帮助观众建立基础认知。

Justin Johnson

好的,我最初接触 AI 是在本科快结束时。我在加州理工学院(Caltech)学习数学和计算机科学,那段时间非常棒。在那期间,有一篇非常有名的论文发布了,那就是 Home Neck Lee 和 Andrew Ng 等人在 Google Brain 的“猫论文”,这是我第一次接触深度学习的概念。

这种技术让我感到惊艳,那是我第一次遇到这种配方:强大的通用学习算法、巨大的计算资源和大量的数据结合在一起时,会发生一些神奇的事情。我大约在 2011 年、 2012 年左右接触到这个想法,当时我就觉得这将是我未来要做的事情。

显然,要做这些工作必须去读研究生,于是我发现 Feifei 在斯坦福,她当时是世界上少数几位深入研究这一领域的人之一。当时是从事深度学习和计算机视觉的绝佳时机,因为这是技术从萌芽期走向成熟并广泛应用的时刻。

那段时间,我们看到了语言建模的开端,也看到了区分性计算机视觉的起步——你可以通过图片理解其中的内容。这段时间还出现了我们今天称之为生成式 AI 的早期发展,生成图像、生成文本等算法核心部分也是在我读博期间由学术界解决的。

当时每天早上醒来,我都会打开 arXiv 查看最新的研究成果,就像拆圣诞礼物一样,几乎每天都有新的发现。过去两年里,世界其他人也开始意识到,每天通过 AI 技术有新的“圣诞礼物”收到。但对我们这些从事这个领域十多年的人来说,这种体验早就有了。

Feifei Li

显然,我比Justin要年长得多。我是从物理学进入 AI 领域的,因为我的本科背景是物理学。物理学是一门教你思考大胆问题的学科,比如世界上未解之谜。在物理学中,这些问题可能与原子世界、宇宙相关,但这种训练让我产生了对另一个问题的兴趣——智能。因此,我在加州理工学院做了 AI 和计算神经科学的博士研究。Justin和我虽然没有在加州理工学院重叠过,但我们共享相同的母校。

Justin Johnson

还有相同的导师?

Feifei Li

是的,你的本科导师也是我的博士导师,Pietro Perona。在我读博期间, AI 在公众视野里正处于寒冬,但在我眼中并非如此。这更像是春天前的冬眠期,机器学习和生成模型正在蓄积力量。我认为我是机器学习领域的“本地人”,而 Justin 的那一代是深度学习的“原住民”。

机器学习是深度学习的前身,我们当时实验了各种模型。但在我博士结束时以及担任助理教授期间,我的学生和我实验室意识到,有一个被忽视的 AI 元素在驱动着泛化能力,这个领域当时并未深入思考,那就是数据。我们当时专注于贝叶斯模型等复杂模型,而忽略了让数据驱动模型的重要性。

这是我们押注 ImageNet 的原因之一。当时所有领域的数据集规模都很小,计算机视觉和自然语言处理的标准数据集都是几千或几万条数据,但我们意识到需要提升到互联网规模。幸运的是,互联网时代也正在崛起,我们乘上了这股浪潮,也正是在这个时候我来到了斯坦福。

Martin Casado

这些时代就像我们经常谈论的那些,比如 ImageNet 显然是推动或至少是让计算机视觉在生成式 AI 领域中流行并具备可行性的重要时代。我们通常会提到两个关键的突破:一个是 Transformer 的论文,即“注意力机制”(attention),另一个是较少谈到的“稳定扩散”(stable diffusion)。

用这种方式来理解这两个来自学术界(尤其是谷歌)的算法突破是否合理?或者说这更是一个有意为之的过程?亦或是还有其他一些不常被提及的重大突破也推动了我们走到今天?

Justin Johnson

是的,我认为最大的突破在于计算能力。我知道 AI 的故事往往也是计算能力的故事,但即便人们经常提到它,我认为它的影响还是被低估了。

过去十年我们在计算能力上看到的增长是惊人的。被认为是深度学习在计算机视觉领域突破性时刻的第一篇论文是 AlexNet,这是一篇 2012 年的论文,深度神经网络在 ImageNet 挑战赛中表现出色,远超其他当时的算法。

在研究生期间你可能会接触到的那些算法,和 AlexNet 相比相形见绌。AlexNet 是一个拥有 6000 万个参数的深度神经网络,它在两张 GTX 580 显卡上训练了六天,GTX 580 是当时最强大的消费级显卡,发布于 2010 年。

我昨晚查了一些数据,想把这些放在一个更大的背景中看待。英伟达最新的显卡是 GB200,你们猜一下 GTX 580 和 GB200 之间的计算能力差距有多大?

数量在几千左右,所以我昨晚算了一下数据。像是那两周的训练,那六天是在两块GTX 580上运行的,如果扩展一下,大概可以在一块GB200上运行不到五分钟。

这样想的话,真的有个很好的论点—— 2012 年 AlexNet 在 ImageNet 挑战赛上的论文真的是一个非常经典的模型,那就是卷积神经网络模型。

而实际上,这个概念早在 1980 年代就已经出现了,我还记得作为研究生学习的第一篇论文,内容也差不多,有六七层的网络结构。AlexNet 和卷积神经网络模型的唯一区别几乎就是 GPU ——使用了两个 GPU 和海量的数据。

所以我本来要说的是,大多数人现在都熟悉所谓的“痛苦的教训”(bitter lesson),这个教训说的是,如果你开发一个算法,只要确保你能利用现有的计算资源,因为这些资源会逐渐变得可用。于是你只需要一个能够不断进步的系统。

另一方面,似乎还有另一个同样有说服力的观点,那就是新的数据源实际上解锁了深度学习。ImageNet 就是一个很好的例子。虽然很多人认为自注意力机制对 Transformer 模型很重要,但他们也会说这是利用人工标注数据的一种方式。

因为人类为句子结构提供了标注,如果你看看 CLIP 模型,它实际上是通过互联网让人类使用alt标签来标记图片。因此,这实际上是一个关于数据的故事,而不是关于计算的故事。那么答案是两者兼有,还是更偏向某一方呢?我认为是两者兼有,但你也提到了另一个非常关键的点。

Martin Casado

我觉得在算法领域中,实际上有两个明显不同的时代。ImageNet 时代是监督学习的时代。在这个时代,我们有很多数据,但我们不知道如何仅凭数据本身来训练。

ImageNet 和其他同时期的数据集的预期是,我们会有大量的图像,但我们需要人类对每张图像进行标注。而我们训练的所有数据,都是由人类标注员逐一查看并标注的。

而算法的重大突破在于,我们现在知道如何在不依赖人类标注的数据上进行训练。对于一个没有 AI 背景的普通人来说,似乎如果你在训练人类数据,人类实际上已经进行了标注,只是这种标注并不是显式的。

Justin Johnson

是的,哲学上来说,这是一个非常重要的问题,但这个问题在语言领域比在图像领域更为真实。是的,但我确实认为这是一个重要的区别。CLIP 确实是由人类标注的。我认为自注意力机制是人类已经理解了事物之间的关系,然后你通过这些关系进行学习。

所以它仍然是由人类标注的,只不过这种标注是隐式的,而不是显式的。区别在于,在监督学习时代,我们的学习任务受到更多限制。我们必须设计出一套我们想要发现的概念本体论。

比如在 ImageNet 中,Fei-Fei Li和她的学生们花了很多时间思考 ImageNet 挑战赛中的一千个类别应该是什么。而在同时期的其他数据集,如用于目标检测的COCO数据集,他们也花了很多心思去决定放入哪些80个类别。

Martin Casado

那么让我们谈谈生成式 AI 。当我攻读博士学位的时候,在你们出现之前,我上过 Andrew Ng 的机器学习课程,还学过 Daphne Koller 非常复杂的贝叶斯课程,对我来说这些都很复杂。

当时的很多内容都是预测建模。我还记得你解锁了整个视觉领域的东西,但是生成式 AI 大约是在过去四年中才出现的。这对我来说是一个完全不同的领域——你不再是识别物体,也不是在预测什么,而是在生成新的东西。

所以也许我们可以谈谈是什么关键因素让生成式 AI 得以实现,它和之前的不同之处,以及我们是否应该以不同的方式去看待它,它是否是一个连续发展的部分还是另一个全新的领域?

Feifei Li

这非常有趣,即使在我研究生时代,生成模型就已经存在了。我们当时就想做生成,只不过没人记得了,即使是用字母和数字做生成,我们也在尝试一些事情。Jeff Hinton 当时有一些关于生成的论文,我们也在思考如何生成。

实际上,如果你从概率分布的角度来看,数学上是可以进行生成的,只是当时生成的东西根本无法让人感到惊艳。所以,尽管从数学理论上来看生成的概念是存在的,但实际上没有任何生成效果让人感到满意。

然后我想特别提到一位博士生,他在深度学习方面有着浓厚的兴趣,来到了我的实验室。这个博士生的整个博士学习经历几乎可以说是这个领域发展轨迹的缩影。

他的第一个项目是数据,我逼着他做,尽管他不喜欢,但事后他也承认学到了很多有用的东西。“现在我很高兴你能这么说。”于是我们转向深度学习,核心问题是如何从图像生成文字。实际上,这个过程中有三个明确的阶段。

第一个阶段是将图像和文字进行匹配。我们有图像,也有文字,接下来我们要看它们之间的关联度。我的第一篇学术论文,也是我的第一篇博士论文,研究的就是基于场景图的图像检索。接下来,我们继续深入研究,从像素生成文字,这方面他和 Andrej 都做了很多工作,但依然是一种非常有损的生成方式,信息从像素世界中获取时损失很大。

中间阶段有一个非常著名的工作,那个时候有人第一次实现了实时化。2015 年,一篇叫《神经算法的艺术风格》的论文由 Leon Gatys 领导发表。他们展示了将现实世界的照片转换为梵高风格的图片。

我们现在可能习以为常,但那是在 2015 年,那篇论文突然出现在 arXiv 上,震惊了我。我感觉大脑中被注入了一种“生成 AI 的病毒”。我心想:“天哪,我需要理解这个算法,玩一玩,试着把自己的图片变成梵高风格。”

于是,我花了一个长周末重新实现了这个算法,让它能够正常运行。其实它是一个非常简单的算法,我的实现大概只有 300 行代码,当时是用Lua写的,因为那时候还没有 PyTorch,我们用的是 Lua Torch。不过尽管算法简单,它的速度很慢。每生成一张图片,你都需要运行优化循环,耗费很多时间。生成的图片很漂亮,但我就是希望它能更快一点。最后,我们确实让它变快了。

还有一点我非常自豪的是,在生成 AI 真正走向世界之前,他在博士研究的最后一部分做了一个非常前沿的工作。这个项目是通过输入自然语言来生成完整的图像,这可以说是最早的生成 AI 工作之一。我们使用的是GANs,但当时它非常难用。问题是,我们还没有准备好用自然语言来描述一幅完整的图像。

于是,他采用了一个场景图结构输入方式,输入内容是“羊群”、“草地”、“天空”等,并用这种方式生成了一幅完整的图像。

从数据匹配到风格转换,再到生成图像,我们逐渐看到了一个完整的转变。你问这是否是一个巨大的变化,对于像我们这样的人来说,这是一个持续的过程,但对于大众而言,成果确实显得突然且具有冲击力。

Martin Casado

我读了你的书,真是一本很棒的书,我强烈推荐大家去读。而且,Fei-Fei,我想说的是,长期以来,你的很多研究和方向都聚焦于空间智能、像素处理等领域。现在你在做的 World Labs 也和空间智能相关。能谈谈这是你长期旅程的一部分吗?你为什么现在决定去做这个?这是否是某种技术突破或个人原因?你能否带我们从 AI 研究的背景过渡到 World Labs?

Fei-Fei Li

对于我来说,这既是个人的追求,也是智力上的旅程。你提到了我的书,我的整个智力旅程实际上是一种对“北极星”的追寻,同时也坚信这些北极星对于我们领域的进步至关重要。

在一开始的时候,我还记得研究生毕业后,我认为我的北极星是“为图像讲故事”,因为对我来说,这是视觉智能的一个重要组成部分,也就是你所说的 AI 的一部分。

但是,当 Justin 和 Andrej 完成他们的工作时,我想:“天哪,这就是我一生的梦想,我接下来要做什么?”这个进展比我预期的快得多——我本以为需要一百年才能实现这些。

视觉智能始终是我的热情所在。我坚信,对于每一个有智能的存在,比如人类、机器人,或者其他形式的存在,学会如何看待这个世界、如何推理、如何与世界互动是至关重要的。无论是导航、操控、制造,甚至是构建文明,视觉和空间智能都在其中扮演着基础性角色。

它的基础性可能和语言一样,甚至在某些方面更加古老和基本。因此,World Labs的北极星,就是解锁空间智能,而现在是正确的时机。

就像 Justin 说的那样,我们已经具备了所需的资源——计算能力和对数据更深的理解。与 ImageNet 时代相比,我们在数据理解上变得更加复杂。

我们也拥有了算法方面的进展,比如我们的共同创始人 Ben Mildenhall 和 Christoph Lassner 在 Nerf 方面的前沿工作。我们觉得现在是下定决心、专注这一领域并解锁其潜力的最佳时机。

Martin Casado

为了让大家理解清楚,你现在创办了这家公司——World Labs,而你们要解决的问题就是“空间智能”。你能简明扼要地描述一下,什么是空间智能吗?

Fei-Fei Li

空间智能指的是机器理解、感知、推理并在 3D 空间和时间中采取行动的能力。具体来说,它是指理解物体和事件如何在 3D 空间和时间中定位,以及世界中的交互如何影响这些 3D 位置。

这不仅仅是让机器停留在数据中心或主机中,而是让它走向现实世界,去理解这个丰富的 3D 、4D 世界。

Martin Casado

你说的这个“世界”是指现实的物理世界,还是一种抽象概念上的世界?

Fei-Fei Li

我认为两者兼有。这也代表了我们长期的愿景。即使你是在生成虚拟世界或内容,定位于 3D 中仍然有很多好处。或者当你在识别现实世界时,能够将 3D 理解应用到真实世界中也是其中的一部分。

Martin Casado

你们的共同创始人团队真是非常强大。那你觉得为什么现在是做这件事的合适时机呢?

Fei-Fei Li

这实际上是一个长期进化的过程。在博士毕业后,我开始寻找成为独立研究员的道路,并且思考 AI 和计算机视觉领域中的大问题。当时我得出的结论是,过去十年主要是在理解已经存在的数据,而接下来的十年将会是理解新的数据。

过去的数据,主要是网络上已经存在的图像和视频,而未来的数据则是全新的——智能手机出现了,这些手机有相机,有新的传感器,并且可以在 3D 世界中定位。这不仅仅是你从互联网上获取一堆像素并试图判断这是一只猫还是一只狗的问题了。

我们希望把这些图像当作与物理世界的通用传感器,帮助我们理解世界的 3D 和4D 结构,无论是在物理空间还是生成空间中。

博士毕业后,我做了一个很大的转变,进入了 3D 计算机视觉领域,与我的同事们一起研究如何预测物体的 3D 形状。后来,我对通过 2D 数据学习 3D 结构的想法产生了浓厚的兴趣。

我们讨论数据时常会提到,获取 3D 数据很难,但实际上 2D 图像是 3D 世界的投影,这里有很多可以利用的数学结构。即便你有大量的 2D 数据,你也可以通过这些数学结构推导出 3D 世界的结构。

2020年是一个突破性时刻。我们的共同创始人 Ben Mildenhall 提出了 Nerf (神经辐射场)方法。这是一种非常简单、清晰的方式,可以通过 2D 观测推导出 3D 结构,点燃了整个 3D 计算机视觉领域。

与此同时, LLM 也开始崭露头角。很多语言建模的工作实际上在学术界已经发展了很长时间。即使在我的博士阶段,我也与 Andrej Karpathy 在 2014 年进行了一些语言建模工作。

Justin Johnson

这其实是出现在 Transformer 之前的事情,但到了 GPT-2 的时代,你在学术界已经很难再做这样的模型了,因为它们需要的计算资源太大了。然而,有趣的是,Ben 提出的 Nerf 方法,只需要在单个 GPU 上训练几个小时。

这让很多学术研究者开始重新聚焦于这些问题,因为可以在有限的计算资源下解决一些核心算法问题,而且你可以在单个 GPU 上获得最先进的成果。所以当时很多学术研究者都在思考:我们如何通过核心算法来推动这个领域的发展?我和Fei-Fei聊了很多,我们都非常确信这一点。

Fei-Fei Li

是的,我们发现我们的研究方向在某种程度上正朝着相似的目标前进。我还想讲述一个很有趣的技术问题,或者说一个关于像素的技术故事。

很多从事语言研究的人可能不知道,在生成 AI 时代之前,我们这些从事计算机视觉领域的人,实际上有一个很长的历史,叫做 3D 重建的研究。

这可以追溯到上世纪70年代,你可以通过拍摄照片——因为人类有两只眼睛,所以可以用立体照片来尝试三角测量,构建 3D 形状。然而这是一个非常难的问题,至今尚未完全解决,因为存在匹配问题等复杂情况。

这个领域有着长期的进展,但是当 Nerf 和生成方法结合,尤其是在扩散模型的背景下, 3D 重建与生成突然开始融合。在计算机视觉领域内,我们突然发现,如果我们看到某个东西,或者想象某个东西,二者都可以汇聚到生成它的方向。这是一个非常重要的时刻,但很多人可能没有注意到这一点,因为我们没有像谈论 LLM 那样广泛讨论它。

Justin Johnson

对,在像素空间中有重建,例如你重建一个真实的场景;而如果你看不到那个场景,则会使用生成技术。这两者实际上是非常相似的。整个对话中你一直在谈论语言和像素,或许这是一个好时机来讨论空间智能与语言方法的对比,比如它们是互补的,还是完全不同的?

Fei-Fei Li

我认为它们是互补的。我不确定如何定义“完全不同”,但我可以尝试做个对比。如今,很多人都在谈论GPT、开放 AI 以及多模态模型。大家觉得这些模型既能处理像素,也能处理语言。那么它们是否能实现我们想要的空间推理呢?为了回答这个问题,我们需要打开这些系统的“黑箱”,看看它们是如何在底层工作的。

语言模型和我们现在看到的多模态语言模型,其底层的表示是“一维的”。我们谈论上下文长度、 Transformer 、序列、注意力机制,但归根结底,这些模型的表示是基于一维的序列化令牌。

这种表示在处理语言时是非常自然的,因为文本本身就是由一维的离散字母序列组成的。这种一维表示是 LLM 成功的基础,现在我们看到的多模态 LLM 也是如此,它们将其他模态(如图像)“硬塞进”这种一维的表示中。

而在空间智能领域,我们的思路正好相反——我们认为世界的三维本质应该成为表示的核心。从算法的角度来看,这为我们处理数据和获得不同类型的输出提供了新的机会,帮助我们解决一些截然不同的问题。

即使从一个粗略的层面来看,你可能会说:“多模态 LLM 也能看图像。”确实可以,但它们在处理图像时没有将三维的本质置于其方法的核心。

Justin Johnson

我完全同意,讨论一维与三维表示的根本性区别是非常核心的。此外,还有一个稍微哲学化的观点,但对我来说同样重要:语言本质上是一种纯生成的信号,世界上不存在语言。你走到大自然中不会看到天上写着文字。无论你输入什么数据,语言模型几乎都可以通过足够的泛化将相同的数据吐出来,这就是语言生成的特质。

但 3D 世界不同,它遵循物理法则,拥有自己的结构和材料。能够从根本上提取这些信息,进行表示和生成,这是一种完全不同的问题。尽管我们会借鉴语言模型中的一些有用的想法,但从根本上来说,这是一个不同的哲学问题。

Martin Casado

对,所以语言模型是一维的,可能是对物理世界的不良表示,因为它是人类生成的,带有损失。而另一个生成模型的模态是像素,即 2D 图像和视频。如果你看视频,可以看到 3D 场景,因为摄像机可以平移。那么空间智能与 2D 视频有什么不同呢?

Fei-Fei Li

这里有两点值得思考。一是底层的表示,二是用户体验的便利性。这两者有时会让人混淆。我们感知的是 2D ——我们的视网膜是二维的结构,但我们的大脑将其视为三维世界的投影。

你可能希望移动物体、移动摄像机,原则上你可以用二维的表示和模型来做这些事情,但它并不适合解决你提出的问题。动态三维世界的二维投影可能可以建模,但将三维表示放在模型的核心,能够更好地适应问题的需求。

我们的目标是将更多的三维表示融入模型的核心,从而为用户提供更好的体验。这也与我的“北极星”相关。为什么我们强调“空间智能”,而不是“平面像素智能”?

因为智能的发展轨迹,如果你回顾进化史,它的最终目的是让动物和人类能够在世界中自由移动、互动,进而创造文明,甚至是做一片三明治。因此,将这种 3D 的本质转化为技术,是释放无数潜在应用的关键,即便有些看起来只是表面上的进步。

Martin Casado

我认为这是一个非常微妙却至关重要的观点。或许我们可以通过谈论一些应用场景来进一步深入讨论。当我们谈论开发一种可以实现空间智能的技术模型时,它可能具体是什么样子的?有哪些潜在的应用场景?

Fei-Fei Li

我们设想的空间智能模型可以做很多事情,其中一个让我特别兴奋的是“世界生成”。类似于文本-图像生成器,我们现在已经有了文本-视频生成器——输入一张图像或一段视频,系统就能生成一个两秒钟的惊人片段。但我认为我们可以将这一体验提升到 3D 世界。

我们可以想象空间智能未来帮助我们将这些体验提升到 3D ,不仅仅生成一张图片或一段视频,而是生成一个完整的、模拟的、丰富的互动 3D 世界。也许用于游戏,也许用于虚拟摄影,应用领域广泛得令人难以想象。

Justin Johnson

我觉得这项技术会随着时间的推移逐渐进步。构建这些东西非常困难,所以静态问题可能会相对简单一些,但从长远来看,我们希望它是完全动态的、可交互的,正如你刚才所描述的一切。

Fei-Fei Li

是的,这正是空间智能的定义。我们会从更多的静态问题开始,但你提到的所有内容都在空间智能的未来规划中。

Justin Johnson

这也体现在我们公司“World Labs”的名字上——这个名字的含义是关于构建和理解世界。起初我们告诉别人这个名字时,他们并不总是能理解,因为在计算机视觉、重建和生成领域,我们通常会对所能做的事情进行区分。第一级是识别物体,比如麦克风、椅子等这些世界上的离散物体。许多 ImageNet 的工作都与识别物体有关。

但接下来我们提升到了场景的层次——场景是由物体组成的。例如,现在我们有一个录音室,里面有桌子、麦克风和坐在椅子上的人,这是物体的组合。但我们想象的“世界”是超越场景的。场景可能是单一的东西,但我们希望打破这些界限,走出门外,走到街上,看到车流穿梭,看到树叶在风中摇动,并能够与这些东西互动。

Fei-Fei Li

另一件非常令人兴奋的事情是关于“新媒体”这个词。借助这项技术,现实世界、虚拟想象世界或增强世界、预测世界之间的界限变得模糊。真实世界是 3D 的,所以在数字世界中,必须有 3D 表示才能与真实世界融合。你不能只用 2D 甚至 1D 来有效地与真实的 3D 世界交互。

这种能力解锁了无限的应用场景。就像 Justin 提到的第一个应用场景,虚拟世界的生成可以用于任何用途。第二个可能是增强现实。就在 World Labs 成立的那段时间,苹果发布了 Vision Pro,他们使用了“空间计算”这个词。我们几乎也在讲同样的事情,我们强调的是“空间智能”。空间计算需要空间智能,这一点是毫无疑问的。

我们不知道未来的硬件形式会是什么样子——可能是护目镜、眼镜,甚至隐形眼镜。但在真实世界与虚拟世界之间的界面,无论是增强你的工作能力、帮助你修理汽车,哪怕你不是专业技工,或者只是为娱乐提供一个类似于“Pokemon Go++”的体验,这项技术将成为 AR/VR 的操作系统。

Justin Johnson

极限情况下,AR 设备需要做的事情就是一直陪伴着你,实时理解你所看到的世界,帮助你完成日常生活中的任务。我对此感到非常兴奋,尤其是虚拟与现实之间的融合。当你能够实时完美地理解周围环境中的 3D 时,它甚至可能取代现实世界中的一些事物。

比如说,现在我们有各种不同尺寸的屏幕—— iPad、电脑显示器、电视、手表等,它们在不同的场景中呈现信息。但如果我们能够无缝地将虚拟内容与物理世界融合,这些设备就不再必要了。虚拟世界可以在正确的时刻用最合适的方式向你展示所需的信息。

另一项巨大的应用是混合数字虚拟世界与 3D 物理世界,尤其是机器人领域。机器人必须在物理世界中行动,而它们的计算和大脑在数字世界中。学习与行为之间的桥梁,必须由空间智能来搭建。

Martin Casado

你提到了虚拟世界、增强现实,现在你又谈到了纯粹的物理世界,比如用于机器人领域。这个方向非常广泛,尤其是如果你计划涉足这些不同的领域。你们如何看待深度技术与这些具体应用领域的关系?

Fei-Fei Li

我们认为自己是一家深度技术公司,作为一个平台公司,提供能够服务于这些不同应用场景的模型。至于哪个应用场景更适合我们一开始关注的,我觉得现在的设备还不够完善。

实际上,我在研究生时期就拥有了我的第一台 VR 头戴设备。当我戴上它时,我心里想:“天哪,这太疯狂了!”我相信很多人第一次使用VR时都有类似的体验。

我非常喜欢 Vision Pro,发布的那天我熬夜抢购了一个,但现在作为大众市场的平台,它还未完全成熟。因此,我们作为公司,可能会选择一个已经更为成熟的市场进入。

有时通用性中也会有简洁性。我们有一个作为深度技术公司的愿景,相信有一些根本性的问题需要被很好地解决,如果解决得好,可以应用于多个不同的领域。我们视公司的长期目标为构建和实现空间智能的梦想。

Justin Johnson

事实上,我认为这就是你们所做的影响所在。我不认为我们会真正完全到达那个终点,因为这是一个如此根本的事物——宇宙本质上是一个不断演化的四维结构,而广义上的空间智能就是理解这个结构的全部深度,并找到其中所有的应用。所以,虽然我们今天有一套特定的想法,但我相信这段旅程会带我们去一些我们现在根本无法想象的地方。

Fei-Fei Li

技术的神奇之处就在于,它会不断打开更多的可能性。我们会持续推进,而这些可能性也会不断扩展。

Frontiers
Frontiers
文章: 66