UC Berkeley Ken Goldberg 教授:具身数据规模落后十万年,你仍然相信数据万能吗?| ICRA 2026
Quick Answer
UC Berkeley's Ken Goldberg highlights a 100,000-year data gap in robot manipulation, questioning the reliance on vast datasets and advocating for a balanced approach between data and engineering methods.
Quick Take
UC Berkeley's Ken Goldberg highlights a 100,000-year data gap in robot manipulation, questioning the reliance on vast datasets and advocating for a balanced approach between data and engineering methods. He emphasizes the importance of integrating traditional engineering techniques with modern model-free approaches like VLA to enhance robotic capabilities.
Key Points
- Goldberg argues that current robot data is equivalent to only a few years of human reading data.
- He cites the Dex-Net project as a successful integration of data and engineering methods.
- Goldberg questions the belief that more data alone will solve robotic challenges.
- He emphasizes the need for reliable engineering alongside model-free approaches like VLA.
- The talk sparked discussions on the ideological divide between model-based and model-free robotics.
📖 Reader Mode
~11 min read这成为了本届国际机器人与自动化会议(ICRA)现场最引人关注的话题。在会议第二天,UC Berkeley 教授 Ken Goldberg 发表了题为《Can GOFE and Code-as-Policy Close the 100,000-Year “Data Gap” in Robot Manipulation?》的演讲,发表了他对具身数据采集、数据飞轮、GAP 系统,以及有关具身落地种种的看法。雷峰网·AI科技评论在现场发回报道。
过去几年,随着 ChatGPT、视觉语言动作模型(VLA)和人形机器人热潮兴起,依靠海量数据、深度学习和大模型驱动的 Model-Free 路线几乎成为行业主旋律,人们无比相信 Scaling Law 将再次带我们抵达具身智能的 GPT 时刻,乃至真正的通用机器人。
对此,Ken Goldberg 提出了灵魂之问:什么时候?
“如果按照人类平均阅读速度计算,阅读完今天训练大型语言模型所使用的全部数据,大约需要10万年。而换算到机器人领域,我们目前积累的数据总量,大概只相当于几年的规模。”
具身智能数据鸿沟的抽象讨论背后,是一组恐怖的对比数据。Ken Goldberg 相信,这已经足够成为我们对“数据万能论”保持警惕的充分理由。而海量数据的反面是工程,在一条更可靠的具身落地路径上,工程架构、模块设计和物理建模仍然不可替代。
在演讲中,Ken Goldberg 回顾了自己团队著名的 Dex-Net 项目。从利用概率模型评估抓取成功率,到构建大规模仿真数据集,再到训练神经网络完成真实世界抓取,这个近十年前的尝试对于今天的具身智能仍有启示,那就是数据与工程方法的深度结合,效果远胜单纯的数据堆砌。当下对数据飞轮的讨论同样可以纳入这一框架,大规模商业部署,首先关注的必然是让机器人做出有用的事情,这离不开对工程层面的关注。
数据还是工程?对于这个困扰行业已久的问题,Ken Goldberg 认为答案或许不是二选一。当前炙手可热的 VLA 模型拥有惊人的泛化潜力,却容易在环境发生细微变化时失效。传统工程系统虽然缺乏通用性,但可靠性见长的特点却让二者看起来像是天作之合。
让大语言模型不直接控制机器人,而是生成可解释、可验证的计算图,再由多个智能体协同构建和优化系统。这就是 Ken Goldberg 在仿真、世界模型、遥操作之外,提出的一种全新融合思路。
以下是 Ken Goldberg 在 ICRA 2026 大会发表的演讲精编稿,AI 科技评论基于原英文演讲内容进行了不改原意的翻译编辑:
《Can GOFE and Code-as-Policy Close the 100,000-Year “Data Gap” in Robot Manipulation?》
主讲人:Ken Goldberg, UC Berkeley

01
GOFE 和代码即策略,能否弥合机器人操作领域长达十万年的数据鸿沟?
今天我想讲的是“两种文化的故事”。
大概7岁的时候,我经常熬夜看《Jetsons》。有些人可能还记得,那是一部很棒的动画片。里面有一个机器人,她会做所有家务,然后陪孩子们玩。我当时觉得太棒了,从小我就一直想拥有这样的机器人。事实上,我父亲和我真的一起造过一个机器人。那是给他的铬电镀公司做的,一个机器人吊运机。它其实从来没有真正成功运行过,不过说实话,我们当时做的很多东西都没成功。
正如 Alex 提到的那样,我小时候同时对科学和艺术感兴趣。随着年龄增长,我越来越意识到这两者之间存在着一道鸿沟。这让我想起 C. P. Snow 所描述的“两种文化”——科学家和艺术家看待世界的方式截然不同。

后来我去了卡内基梅隆大学,投入到了科学研究中,专注于解决问题。我至今仍然记得某个时刻,当所有事情突然串联起来时的感觉。那种感觉真的很奇妙,仿佛宇宙中有某种力量在推动这一切发生。与此同时,晚上我还会偷偷在实验室里用机器人创作艺术作品。我的导师 Matt Mason 后来发现了这件事,因为我把油漆洒在了地板上,所以不得不承认自己在干什么。
结果他说:“好吧,继续做下去。”他非常支持我。这件事让我非常开心。
几年后,我们完成了一个叫做 Telegarden 的项目。在互联网发展的早期阶段,我们把机器人接入网络,人们可以在线操控机器人来照料花园。再后来,我和 Katie Kuan 合作完成了一个项目。她毕业于斯坦福大学机器人学博士项目,同时也是一位职业舞者。我们一起做了一场舞蹈表演,当然跳舞的不是我,而是一台小机器人。可以说,我一直试图在科学与艺术这两种文化之间搭建桥梁。
但正如 Alex 所说,还有另外两种文化,是我后来逐渐研究并不断思考的:机器人学内部的文化,以及机器人学外部的文化。有人曾开玩笑说,一台机器人叫 Robotics(机器人学),十台月球机器人就是 Roger Biller 说的 Automation(自动化)。
我曾参与创办《IEEE Transactions on Automation Science and Engineering》,它是《IEEE Transactions on Robotics》的补充。如今这两个期刊都发展得很好。现在我们还有一个新的组织叫做 CASER,这是 Jim Hutchinson 命名的委员会,目的是探索自动化与机器人之间的协同效应。这个工作至今仍在继续,他们周四也有会议。
好了,说到“两种文化”,今天我真正想讨论的是另外一组文化。这是我在 ICRA 社区中看到的两种文化:一种是 Model-Based(基于模型),另一种是 Model-Free(无模型)。

我认为前者可以追溯到牛顿时代。这是我们在大学里学习了很久,并且今天依然在教授的内容。它构成了机器人操作(manipulation)的核心基础,也支撑着诸如《Algorithmic Foundations of Robotics》等会议和大量学术成果。
然而到了2012年,情况发生了变化。以深度学习为代表的 Model-Free 方法取得了重大突破。最早是深度学习,然后是 Transformer,再后来是 Diffusion Model。到了2021年,人们又开始重新讨论人形机器人。
大家可能还记得,第一款“人形机器人”就是在 Tesla AI Day 上发布的。当然,它并没有真正骗过任何人。不过 Elon Musk 当时承诺:“未来 Tesla Bot 会来到这里。”那是2021年。

这件事吸引了大量关注。随后到了2022年底,我们迎来了 ChatGPT 时刻。那天早上醒来时,我们突然意识到,图灵测试也许没有被正式宣布解决,但它实际上已经被通过了。
接下来发生了一系列重大进展。到了2023年,VLA(Vision-Language-Action)模型迅速出现。同样的思想被扩展到了机器人领域,摄像头和传感器作为输入,中间是一个大型神经网络,输出则是机器人动作,这是一个端到端系统。
我认为这真正催生了两种文化。许多人对右边这条路线——Model-Free、VLA 路线——充满热情。如果我现在做个现场投票,我相信会有大量听众支持这一方向。所以我想借今天的时间,稍微深入讨论一下这个问题。

首先从机器人数据鸿沟开始。必须承认,自2025年以来,这个领域的发展势头越来越强。Jensen Huang 曾站在舞台上展示大量人形机器人。今年他更进一步,不仅展示人形机器人,还展示各种机器设备。他提出了“Physical Intelligence(物理智能)”和“Physical AI(物理人工智能)”的概念,并表示这将是一个价值50万亿美元的市场。这几乎相当于全球劳动力成本的一半。
因此大量资本正在涌入。所有人都在问,机器人领域什么时候会迎来属于自己的 ChatGPT 时刻?很多人的回答是,大数据解决了视觉问题,大数据解决了语言问题,因此,大数据也会解决机器人问题。对此我基本同意。

但我真正想问的问题是,这件事什么时候会发生?我知道它终将发生,但我不知道具体时间。
视觉本质上是二维状态空间,语言可以看作一维 Token 序列,而机器人系统的状态空间维度极高。如果讨论一个人形机器人,仅仅是一双25自由度的手,加上手臂,很快就达到50维以上。与此同时,我们还没有像互联网那样的大规模机器人训练数据。那么这个类比究竟如何成立?
因此我们做了一项分析,部分基于 Michael Black 的工作。结果发现,机器人领域拥有的数据量极其微小。与大语言模型相比,几乎微不足道。于是我们提出了“机器人数据鸿沟”这个概念。
如果按照人类平均阅读速度计算,阅读完今天训练大型语言模型所使用的全部数据,大约需要10万年。而换算到机器人领域,我们目前积累的数据总量,大概只相当于几年的规模。这就是巨大的差距。

当然,也有人会说,数据就是一切。但我想对此提出一点质疑。以 Waymo 和 Tesla 为例。Tesla 长期积累的数据量大约达到90亿英里驾驶数据。粗略估计,比 Waymo 多出约50倍。具体数字可能略有偏差,但数量级就是如此。然而在脱离接管率(disengagement)等指标上,Waymo 的表现往往更好。
当然,你可以说这与激光雷达有关。但我想借此提出一个问题:数据真的是唯一需要的东西吗?我和 Waymo 的朋友聊过这个问题。他们告诉我:“是的,我们使用了大量数据训练车辆,但系统内部仍然包含大量传统工程技术。”

所谓传统工程技术,意味着系统由许多模块组成。这些模块使用卡尔曼滤波器、优化器以及各种数学模型。它们被组合起来,共同完成任务。模块化系统具有明确接口,可以组合、分析和验证,这与端到端 VLA 系统形成了鲜明对比。
这正是我所说的“两种文化”,一边是基于模型的方法,另一边是无模型方法。

很多人其实同时属于这两个阵营,比如我本人。我是 Open X-Embodiment 那篇论文的共同作者之一,那篇论文有150位作者参与。如果你去看那篇论文,它提出了一个非常重要的观点:通过在16万个不同任务上进行训练,模型正在走向通用性(generality)。
但我对此有一点疑问。如果你对这些任务做一个统计分析,看看用于描述任务的语言分布,会发现最常见的词是“pick(抓取)”、“move(移动)”、“push(推动)”。这些词出现的频率远远高于其他词。换句话说,这16万个任务中的绝大部分,其实最终都可以归结为一个非常简单的任务,把物体0拿起来,放到物体1上。而有趣的是,这正是 John Craig 机器人学教材第三章讲的内容。

那本书写于 VLA 出现之前很多年,它给出了大量经典工程方法来解决这个任务。只要你有一个视觉模块找到目标,有一个抓取模块,有一个运动规划模块,然后整个系统就能完成任务。所以我想说的是,我非常喜欢这些 VLA 系统。它们非常有趣,也非常令人兴奋。但很多时候,传统工程方法依然能够把工作完成得很好。
再回到这两种文化。坦率地说,两者之间存在某种紧张关系,甚至带有一点意识形态色彩,有些人坚定站在某一边。我想稍微深入讨论一下。
接下来讲一个关于 Covariant Robotics 的故事。实际上,在过去45年里,我一直在研究同一个问题,机器人如何抓取物体。有人说这是因为我小时候特别笨手笨脚,这是我母亲的理论。但无论如何,人类在抓取方面确实极其擅长。
到了2012年,深度学习革命开始了。正如大家都知道的,海量数据、强大的计算能力、新的训练算法……当时我和 Shankar Sastry、Pieter Abbeel 以及几位研究生一起开设了一门机器人操作课程。课程内容基本还是传统机器人学教材里的经典工程方法,但与此同时,我们也在关注计算机视觉领域发生的事情,尤其是在图像分类和标注方面取得的巨大进展。
这些成果很大程度上来源于 ImageNet。Fei-Fei Li 系统性地收集了海量标注图像数据,于是我们开始思考,能不能把同样的思路用于抓取问题?
因此我们启动了 Dex-Net 项目。为了向 Fei-Fei Li 致敬,我们也希望建立一个大型数据集。不过不是图像标注数据。而是三维物体模型,以及针对这些物体的大量抓取方案。

幸运的是,我的博士生 Jeff Mahler 对这个项目非常投入。他开始从互联网各处收集三维模型,许多学生也加入进来。他们清理模型、统一格式、构建数据库。一个典型的 CAD 模型可能包含上千个三角面片。对于平行夹爪而言,一次抓取对应两个接触点,也就是两个面片。因此一个物体可能对应数百万种抓取方式。
接下来我们思考,如何建模抓取过程中的不确定性?我们建立了一个概率图模型,把所有变量都看作随机变量,它们之间存在条件概率关系。最终我们关心的问题是,某一次抓取成功的概率是多少?
举个例子。对于某个标称抓取姿态,我们知道现实中一定存在误差。我们不知道真实接触点在哪里,因为物体位姿有误差,夹爪位姿有误差,物体形状有误差,质心位置也有误差。因此我们从这些概率分布中不断采样,统计成功和失败次数,然后利用蒙特卡洛积分计算成功概率。
结果如图所示:左边那个抓取成功率约为22%,右边那个抓取成功率约为92%。
这其实非常符合直觉。左边的抓取非常脆弱,一点点误差就会失败,右边则具有自校正能力,即使存在误差,依然能够成功。这才是现实中真正想要的鲁棒抓取。
接下来我们关注感知问题。我们决定使用深度传感器,因为我们关心的是物体的三维几何形状,而不是颜色或纹理。深度信息对此非常有帮助,但深度传感器本身噪声很大。如果大家使用过,就会知道,尤其面对反光表面或透明物体时,噪声会非常明显。
我们建立了一个传感器噪声模型。我们知道物体的三维 CAD 模型,于是模拟深度相机观察该物体时的结果,并加入噪声,这样我们得到一个观测值 y。它符合真实传感器的统计特性,然后把这个观测值与具体抓取动作和成功概率对应起来,这样就得到一个训练样本。接着利用云计算平台大规模生成数据。我们拥有约15000个物体模型,对数百万个抓取方案进行评估,最终获得一个巨大数据集。其中既包含大量成功样本,也包含大量失败样本。
然后我们训练神经网络。当时这是一个非常大的网络,参数规模接近十亿级。训练最终收敛,在保留测试集上表现良好。换句话说,给它一张带噪声的深度图像,再给定一个抓取姿态,它能够预测抓取成功概率,而且泛化能力很好。
接下来我们把它用于真实控制。流程是先输入一个杂乱堆放物体的料箱图像,生成大量候选抓取,利用神经网络快速评估每个抓取的成功概率,然后选择成功率最高的方案执行。
这就是2017至2018年左右的 Dex-Net 系统。左边展示的是吸盘抓取器,右边展示的是平行夹爪。如果仔细观察会发现,它并不是每次都成功,但成功率已经高得惊人,在当时属于世界领先水平。我们经常找来数百个训练集中从未出现过的物体,这些东西来自家里、车库、各种地方,系统依然能够稳定清空整个料箱。
后来这项工作获得了不少关注,甚至引起 Jeff Bezos 的兴趣。当时他是 Amazon 的 CEO,他邀请我们到现场展示系统。所有做机器人研究的人都知道,实验室里的机器人能运行是一回事,把它运到别的地方演示是另一回事,这非常让人紧张。我们必须把整套系统打包运输,而此前它从未离开过实验室。
我们担心无数问题,运输损坏、灯光变化、环境变化,还有各种不可预见情况。但幸运的是,一切居然正常工作。我们带去了三箱测试物体,Jeff Bezos 来到现场,开始亲自摆弄那些物体。
一开始系统表现得非常好,直到出现一个意外。他的助手 Ty Brady 脱下自己的鞋,走上前说,能试试抓我的鞋吗?我要告诉大家,当时我们从来没有用鞋测试过,从来没有。
当时我整个人都僵住了,但还能怎么办呢?于是他说,来吧,然后把鞋扔进料箱。我屏住呼吸,因为 Jeff Bezos 就站在那里。机器人伸出手臂,缓缓移动过去,夹住那只鞋,成功抓起。
我可以坦白说,那一刻可能是我人生中最美好的时刻之一。
高压演示环境下,一切居然成功了。第二天,我们受到巨大鼓舞。Jeff Mahler 和另外三位即将毕业的学生一起创办了公司,我也是联合创始人之一,这家公司后来发展成为 Ambi Robotics。
Ambi Robotics 的发展是一段漫长的旅程,我们持续构建和扩展整个系统,而就在这个过程中,新冠疫情爆发了。幸运的是,我们当时研究的问题——包裹分拣——被认定为关键基础设施业务,因此我们获准继续开展研发工作。后来我们开发出了一套系统,叫做 AmbiSort。
AmbiSort 的核心思想依然来自 Dex-Net。它从料箱中抓取物体,只不过这里的物体不再是零件,而是包裹。大家可以想象这个问题有多复杂,系统首先获取深度图像,然后工业机器人伸出机械臂抓取包裹,接着扫描包裹上的邮编信息。最后根据目的地,把包裹放入对应的分拣箱。
这是我们最早的一段演示视频。当时我们的愿景是,把这样的系统部署到全国各地的物流中心,因为这是几乎所有物流配送中心都会遇到的问题。很高兴的是,我们后来真的做到了。
如今系统已经部署在美国各地。我们与主要物流公司合作,他们使用 AmbiSort 系统完成自动化分拣。
这时你可能会说,等等,你刚才不是在质疑数据至上吗?Dex-Net 不就是一个依靠大量数据训练出来的系统吗?
是的,这里确实用了大量数据。但我要强调的是,仅靠数据远远不够。真正让系统运行起来的是数据 + 传统工程,大量工程设计、大量模块化系统、大量细致调试。
其中一个关键模块就是运动规划,因为机器人夹爪和手腕结构较大,它必须在非常狭窄的空间中完成复杂运动。尤其是在料箱越来越深的时候,运动规划变得极其困难。
大家都知道运动规划是机器人学里的经典问题。但当你要求它在极短时间内完成,而且环境非常拥挤时,问题就变得十分棘手。后来 Jeff Mahler 和 Jackie 提出一个非常聪明的想法,利用神经网络为运动规划提供 Warm Start。先用神经网络预测一个好的初始解,然后再进行规划,结果效果非常好,规划时间显著下降。随后又有另一批博士生创办了新公司 Jacobi Robotics,他们专门开发运动规划软件,现在已经商业化运营。
接下来我想回到“两种文化”的讨论。因为我知道,很多人此刻可能在想,这个人有点老派,他是不是不了解《The Bitter Lesson》?

其实我非常了解《The Bitter Lesson》,我也完全认同它。它的核心观点是,长期来看,计算能力最终会胜出。我并不是在否认这一点,我的问题始终只有一个,什么时候?这才是我整场演讲真正想讨论的问题。
因为现实摆在这里,机器人领域与大语言模型之间仍然存在五个数量级的数据差距。这就是我们面对的现实。那么数据从哪里来?我们怎样获得足够的数据?
目前主要有几条路径。第一条路径是仿真,这对于无人机来说效果非常好。你可以在仿真中训练,然后迁移到现实世界。仿真与现实之间的差距非常小,甚至已经能够击败世界级无人机竞速冠军。对于运动控制(Locomotion)也是如此。例如机器狗,今天大家看到的大量成果,都是在仿真环境中训练出来,然后成功迁移到真实世界的。对于全身运动控制而言,仿真到现实的差距相对较小,因此我们也看到了令人惊叹的成果。

但在操作(Manipulation)领域情况完全不同,这里的仿真与现实差距非常大。原因很多,包括接触力持续变化,摩擦持续变化,物体会发生形变。尤其在人类服务场景中,大量物体都是可变形的,而操作本身又容易受到微小碰撞影响。因此经常会出现的情况是,仿真里表现完美,现实中完全失效。这就是操作领域面临的巨大挑战。
另一条路径是世界模型,过去一年大家都在讨论它。例如 Cosmos 这样的系统,它们利用海量视频进行训练。视频数据确实很多,互联网拥有丰富的视频资源。但问题在于,世界模型经常出现幻觉。例如机器人抓取任务中,模型有时会凭空生成第三根手指,或者创造根本不存在的结构,这种情况并不少见。
从视觉效果上看,世界模型似乎合理,但实际上并不理解物理世界。当然,我知道很多人在研究这个方向。未来也许会解决,但目前还没有。
第三条路径是人类遥操作。很多团队都在让人类直接操控机器人,这样可以获得高质量演示数据,如今已经形成一个庞大的产业。但坦率地说,我并不觉得这是令人向往的工作。整天坐在那里遥操作机器人,我的学生们并不喜欢做这件事。而且问题依然存在,这样究竟能收集多少数据?
于是我想提出第四条路径。讨论相对较少,但我认为非常重要,那就是真实生产环境,让机器人真正投入工作,然后从工作过程中收集数据。
以 Ambi Robotics 为例,去年我们的系统累计分拣包裹突破1亿件。这意味着什么?意味着我们记录了近1亿次抓取操作。系统会保存每一次成功和失败,我们拥有统一监控平台,监控所有部署系统,进行预测性维护,发现堵塞、故障、异常。与此同时,也在持续积累数据。截至目前,我们累计获得了约22年的机器人运行数据。注意,这22年不是自然时间,而是所有机器人工作时间累加后的总量。
这些数据是在过去4年里积累出来的,但即便如此,22年数据依然不算多,因为公司规模还不够大。我们甚至没有足够预算去处理全部数据,于是我们选取了一小部分数据进行实验,训练通用抓取模型,然后测试一种全新场景,抓取物流袋。
这与 Dex-Net 时期完全不同。袋子高度可变形,充满褶皱,而 Dex-Net 原本训练的是刚体物体。结果我们发现,真实生产数据训练出来的模型效果极好,远远优于原有数据集。
于是我们提出一个概念,Data Flywheel(数据飞轮)。先让系统投入运行,获得数据,利用数据提升性能,性能提升后卖出更多系统,部署更多机器人,收集更多数据,再进一步提升性能,形成正反馈循环。
后来我和 Leslie Kaelbling 讨论这个问题。她指出,如果系统持续增长,其实已经不仅仅是飞轮,更像是一种指数增长过程。所以我现在更愿意称之为Data Avalanche(数据雪崩)。我认为,这才是机器人获取大规模数据的核心路径。
接下来我要讲的是最近六个月一直在思考的新内容,就从“通用机器人(General Robotics)”开始。这是现在最热门的话题之一,Jensen Huang 在谈,Elon Musk 在谈,大量公司都在谈。核心目标是构建一个能够适应所有场景的通用机器人模型,这个愿景非常吸引人。
但一个月前,Dyna 创始人 Yu Gang 发了一篇很有意思的文章,我建议大家去看看。他指出,通用机器人公司已经融资数十亿美元,超过140家公司获得投资,估值极高。但如果看真正完成的有效工作量,几乎可以忽略不计。这说明什么?说明还有一个问题没有解决,那就是专家系统(Specialist)与通才系统(Generalist)之间的矛盾。
通用机器人希望自上而下解决问题,而专家系统则是一次解决一个具体问题,逐步扩展能力。有趣的是,如果你想通过真实生产环境获得数据,那么生产环境天然更接近专家系统。因为现实中的工作往往不是无限开放的,而是带有一定结构和重复性的。例如咖啡机器人,每天都在做咖啡,订单不同,杯子位置不同,但总体流程相似。再例如物流分拣,每天都在分包裹,包裹不同,但任务本质相同。我把这种情况称为 Variational Automation(变体自动化)。不是固定自动化,也不是完全通用智能,而是在同一个任务中处理各种变化,我认为这是非常重要的中间层。
我一直在用这个视角重新思考近年来提出的各种 VLA 基准测试(Benchmark)。例如经典的任务:把桌上的物体拿起来,放进篮子里。如果换一个角度来看,我们完全可以把它理解成,在超市仓库里完成订单拣选。订单不断到来,机器人需要从货架上找到对应商品并放入订单篮中,这本质上仍然是同一个问题。
而且,这类问题其实已经可以通过传统工程方法解决,传统工程方法已经存在很多年了。我们来比较一下两种路线,对于传统工程方案,人类工程师手工设计系统,每个场景单独开发,通用性较差,而且需要大量系统集成工作。但它已经可以投入生产,可解释性强,可靠性高。今天工业自动化领域大部分系统都是这样工作的。
而另一边是 VLA,它代表了一种完全不同的愿景,希望构建一个高度通用的系统,像大语言模型一样,同一个模型完成各种任务。但目前它还没有真正成熟,它不可解释,我们无法清楚知道系统为什么做出某个决策。更重要的是,它是否足够可靠?是否可靠到能够真正投入生产?这正是两种文化冲突的核心。
我并不是想挑起对立。恰恰相反,我想寻找一种融合方式。在此之前,我们先看看目前 VLA 面临的问题。
去年秋天发布的 LIBERO-Pro Benchmark 做了一项有趣实验。某个 VLA 模型在标准测试环境中达到100%成功率,但如果只是把易拉罐移动几厘米,成功率立刻下降到17%左右。类似现象在许多任务中都出现了。也就是说,当环境变化稍微超出训练分布时,模型性能会迅速崩溃。斯坦福、DeepMind 和布里斯托大学最近的一篇论文也指出,当前模型其实并没有大家想象中那么通用,只要变化超出非常有限的范围,系统就会失效。
那么怎么办?这里我认为,两种文化或许终于有机会真正结合起来。我一直在思考,有没有一种方法能够把它们统一起来,而不是让两边继续对立,于是我开始关注 Agentic Coding。
其实早在2023年就有人提出了 Code as Policies。核心思想是,利用大语言模型生成机器人控制代码,输入任务描述,模型自动编写程序,执行任务。许多团队都在探索这一方向。有趣的是,它提供了一种全新的范式。因为这里仍然使用生成式 AI,利用预训练大语言模型,不需要额外机器人数据,而且输出的是代码,因此具有可解释性,你可以检查,可以分析,可以验证。
于是我们开始研究这种方法。今年夏天我们将在 ICML 发表一篇论文,项目名叫 CAP-X。我们建立了一整套测试框架,利用现有机器人 Benchmark 系统评估 Agentic Coding。最初,我们实现了一个简单 Agent,输入英文任务描述,Agent 自动生成代码,然后执行,结果大约达到32%的成功率,远低于人工编程水平。随后我们加入强化学习,让系统在失败后自动修改代码,不断迭代,结果性能显著提高,在特定 Benchmark 上成功率达到80%以上,已经明显优于许多 VLA 系统。
但真正让我兴奋的是另一件事,那就是过去半年迅速兴起的多智能体系统。自去年12月以来,这个方向几乎爆发式增长。Copilot、Cursor、Claude Code、OpenAI Codex、NVIDIA Nemo 等各种系统不断出现,整个领域发展非常快。不过多智能体系统有一个问题,它们很难管理大型代码库,而机器人系统恰恰拥有极其复杂的软件结构。
于是我们开始重新思考。我的学生 Eric Chen 提出,为什么不尝试用 Rust 重写部分系统?因为 Rust 的类型系统和结构化特征非常适合管理复杂程序。后来我们意识到,等等,机器人领域其实早就拥有一种成熟的结构,那就是图(Graph)。
机器人本来就在使用各种计算图,行为树(Behavior Tree)、ROS 节点图、任务图、运动规划图。这些东西已经存在很多年。于是我们产生了一个想法,既然 Code as Policies 可以生成代码,为什么不能生成图?于是我们提出Graph as Policies(GAP)。核心思想是,不是让 Agent 直接生成代码,而是生成计算图。图结构天然具有很多优势,可以分解,可以组合,可以验证,可以扩展。一个节点负责感知,一个节点负责抓取,一个节点负责运动规划,另一个节点负责任务管理。然后多个 Agent 分别负责不同节点,彼此协作,验证输入输出接口,检查约束条件,确保整个系统能够正确组装。这样就形成了一个大型图结构,例如感知子图、运动规划子图、抓取子图、执行子图等等。

接下来我们正式定义问题。我们关注的是 Variational Automation Task,其输入包括任务语言描述、环境信息、机器人配置、传感器配置、目标物体集合、状态空间、信念空间(Belief Space)及奖励函数。输出则是一个计算图,图由节点和边构成,这个图最终成为机器人执行策略。
整个系统架构如下,我们设计了一个称为 Harness 的框架。之所以叫 Harness(缰绳),是因为你必须有办法控制这些强大的 Agent,否则它们会到处乱跑。Harness 负责接收环境几何信息、任务定义、自然语言描述,然后利用大语言模型把任务拆解,构建初始计算图,接着根据具体环境实例化参数,然后进入自我学习循环,不断执行,不断评估,不断修改图结构。
Agent 特别擅长这种迭代优化过程。最终得到表现最好的图,然后部署到真实机器人上。部署阶段不再需要庞大 GPU,只需要轻量级执行器即可运行。换句话说,训练阶段复杂,执行阶段高效。
接下来我们测试了8个 Variational Automation Benchmark,其中部分来自 LIBERO,部分来自真实工业场景。下面看看结果。
第一个任务叫 Make Popcorn。机器人需要把平底锅放到炉灶上,完成爆米花制作流程。GAP 最终达到98%成功率,而且能够通过自我学习不断提升性能。随后我们把它部署到真实机器人平台,使用 Franka 机械臂,甚至真的使用 Jiffy Pop 爆米花,系统成功完成任务。

接着我们与 Bosch 合作,研究一个工业装配任务。机器人需要把工件正确放入料框,存在大量位置和姿态变化。目前 GAP 成功率已经达到95%。作为对比,人工工程师设计的系统成功率约99%,两者已经非常接近。
然后是数据中心任务,机器人需要插拔网线,这是一个很困难的问题。利用 GAP,我们达到100%成功率,而且只使用机械臂自带力传感器,没有额外硬件。
接下来回到刚才提到的超市订单任务。VLA 模型 OpenVLA 0.5 的成功率约为20%,而 GAP 在同一 Benchmark 上达到97%,而且是在大量商品种类和环境变化条件下实现的。我们还测试了真实场景,结果同样非常稳定。因为一旦图结构生成完成,系统就具有天然泛化能力,改变相机位置或者改变目标物体位置,系统仍然能够正常工作。
随后我们测试 Pack Order 任务,目标是把任意物体装入箱子,不需要识别具体类别,只需要正确装箱。这个问题有点类似 Dex-Net,结果同样非常可靠。
不过最让我兴奋的实验是下面这个。我们把 OpenVLA 0.5 和 GAP 结合起来。怎么结合?很简单。先让 GAP 负责把相机和夹爪移动到理想位置,让目标物体处于最佳观察状态,然后再调用 VLA。结果发生了什么?成功率几乎翻倍甚至三倍提升。因为 GAP 把问题限制在了 VLA 最擅长的分布范围内。这让我意识到,未来真正有前景的方向也许不是二选一,而是融合。GAP 可以帮助系统稳定工作,同时不断收集真实数据,这些数据又可以用于训练未来更强大的 Model-Free 模型。所以我并不是说答案已经确定,我只是认为,这可能是一条值得探索的道路。
以上就是我今天想分享的内容。回到最开始的话题。两种文化,Model-Based,Model-Free。也许我们终于来到一个时刻,它们开始真正融合。而这让我感到非常兴奋。谢谢大家。

02
Q&A 环节
提问:我想问一下,您是否考虑过使用 Stellar Laser,以及即将出现的 Java 架构?是否研究过或者考虑过它们?
Ken Goldberg:这是个很好的问题。事实上我们已经开始关注这些方向。只是由于时间节点比较紧,目前还没有真正做出来。但我们肯定会继续研究。我认为我们现在真的只是刚刚开始,还有大量开放问题等待解决。所以如果你感兴趣,我鼓励你去尝试。这正是让我兴奋的地方。我觉得未来几年我们都会持续研究这些问题。谢谢。
提问:您怎么看待验证(Verification)问题?现在生成大量代码已经变得非常容易,即使是在传统软件开发中,我们也很难验证生成的代码是否真的完成了所有预期功能。那么未来我们是不是也需要用 Agent 来自动完成验证?还是说必须采用其他更严格的方法?
Ken Goldberg:这是一个非常重要的问题。事实上,我已经安排了一次会议。等这次大会结束后,我会和一个专门研究代码验证(Code Verification)的团队讨论合作。我们计划把代码验证机制整合到系统中。目前有些事情是比较容易做到的。例如检查代码是否能够成功编译、自动修复编译错误、验证图结构是否符合规范、检查各个模块之间的连接是否正确。这些都已经可以实现。
但您说得对,更深层的问题是,如何验证系统在所有情况下都能正确工作?在我们的框架里,目前采用的方法之一是在内部仿真环境中反复测试。系统会不断尝试各种情况。而其中一个非常有趣的发展方向是让 Agent 自己提出测试案例,特别是那些边缘情况(Edge Cases)。也就是说,Agent 不只是解决问题,还主动设计最困难的测试来挑战自己。
我认为多智能体系统具备这种能力,或者至少正在朝这个方向发展。系统能够越来越严格地测试自己,不断发现潜在问题,然后持续改进。进一步说,如果这种能力能够迁移到真实世界,就更有意思了。想象一下,机器人能够自动重置环境,自动设计实验,自动执行实验,自动分析结果,然后再优化自己。这具有巨大的潜力。目前已经有人在研究类似方向。因此我对此非常期待。
提问:我很好奇您如何看待另一个趋势。近年来越来越多人开始研究机械智能(Mechanical Intelligence)和智能结构(Intelligent Structures),通过结构本身适应环境的不确定性。您认为这一方向在您所说的“两种文化融合”中处于什么位置?它对于缩小机器人数据鸿沟又能发挥什么作用?
Ken Goldberg:这是个非常好的问题。其中一个思路是,利用 VLM(视觉语言模型)或者 LLM(大语言模型)来设计结构和机构,事实上已经有不少人在尝试这样做。
我不确定今年大会上是否已经有相关论文,但确实已经出现了一些初步成果。例如让模型自动设计特定任务对应的机械结构,自动设计机构甚至自动设计机器人本体。这有点类似于今天我们看到的蛋白质设计,或者其他生成式设计任务,目前已经展现出一定潜力。
我认为这是一个非常开放、非常值得探索的研究方向。同时,这也与您刚才提到的数据问题直接相关。因为我一直强调,我们的目标并不是一步到位获得通用机器人,而是先让机器人足够好,好到有人愿意购买它,把它部署到咖啡馆,部署到仓库,部署到工厂,开始创造价值,然后收集数据,利用这些数据不断提升系统能力。从这个角度来看,机械智能和结构设计同样能够帮助机器人更快进入生产环境,进而加速数据积累。这正是我希望看到的发展路径。
提问:我一直觉得 VLA 最大的弱点之一在于缺乏对物理世界的理解。而您提出的 Graph as Policies 看起来似乎依赖 LLM 编程 Agent。那么您认为这些 LLM 编程 Agent 是否真正拥有物理世界知识?这些图结构是否真的理解物理规律和世界运行方式?
Ken Goldberg:这是一个非常有趣的问题,而且是一个非常深刻的问题。老实说,我不知道。这其实和关于 LLM 的经典争论一样,它们真的理解了吗?哲学家们至今还在争论这个问题。不过有一点很有意思,即使它们没有真正理解,它们似乎也非常擅长“表现得像理解了一样”。换句话说,我认为它们未必以人类的方式理解世界,这一点我觉得已经很明显了。但与此同时,它们确实拥有某种关于环境的表征能力。特别是当你观察这些 Agent 编程时,如果在座有人使用过这些系统,应该会有同样感受,你会惊讶于它们尝试解决问题的方式。
我记得有一个团队分享过他们的实验。他们的 Agent 在完成抓取任务时卡住了,于是它自动上网搜索相关资料,下载了几篇机器人抓取论文,阅读这些论文,然后根据论文中的方法重新设计抓取策略,最终成功解决了问题。这是非常不可思议的事情,系统能够自主完成这一系列过程,那么这是否意味着它真正理解了?我们完全可以找个酒吧,一边喝酒一边讨论几个小时。但对我来说,更重要的问题是,它是否能够做出有用的事情?在这一点上,我比自互联网诞生以来任何一次技术浪潮都更加兴奋。真的如此,我认为这项技术有可能帮助我们打破过去的分裂,让两种文化真正走到一起,并推动机器人领域实现实质性进步。
雷峰网文章
— Originally published at m.leiphone.com
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.
More from WebSearch (Tavily)
See more →WSJ: OpenAI is considering deep price reductions as competition ...
OpenAI is contemplating significant price cuts in response to competitive pressure from Anthropic, particularly due to the success of Claude Code in developer and coding workflows. This shift could affect pricing strategies in the AI market as companies vie for dominance in coding solutions.