
银河通用创始人王鹤:具身智能正迈向专属的「AlphaGo时刻」与「ChatGPT时刻」 | ICRA 2026
Quick Answer
This paper shows that He Wang, founder of Galbot, announced at ICRA 2026 that embodied AI is approaching its 'AlphaGo' and 'ChatGPT' moments, with breakthroughs in autonomous humanoid robots playing tennis and using tools.
Quick Take
He Wang, founder of Galbot, announced at ICRA 2026 that embodied AI is approaching its 'AlphaGo' and 'ChatGPT' moments, with breakthroughs in autonomous humanoid robots playing tennis and using tools. The new LDA model enables long-horizon tasks and multi-tasking capabilities, demonstrating real-world applications in convenience stores and logistics.
Key Points
- Galbot's humanoid robots achieved autonomous tennis matches, showcasing advanced coordination.
- The LDA model enables robots to perform complex tasks like cooking and assembly autonomously.
- Robots have been deployed in real-world scenarios, including Family Mart and logistics warehouses.
- The integration of WAM and a whole-body controller aims to enhance AI capabilities.
- First-person perspective data collection supports robust training for the robots.
Article Content
From source RSS / original summary具身智能正在敲开AGI的大门,全面引爆属于通用机器人的第四次工业革命。 作者丨岑 峰 编辑丨马晓宁 2026年6月3日,国际机器人与自动化会议(ICRA 2026)在奥地利维也纳进入正会的第二天。 在这一天的“行业主题演讲”环节(Industry Keynote Session),具身智能领域知名学者、银河通用(Galbot)创始人和CTO王鹤发表了题为《Towards the AlphaGo and ChatGPT Moments of Embodied AI》的主题演讲。 在演讲中,王鹤指出,具身智能正迈向专属的“AlphaGo时刻”与“ChatGPT时刻”。 他表示,银河通用已通过两大突破触及“AlphaGo时刻”:一是实现完全自主的人形机器人网球对抗,展现了极致的全身协调与Sim2Real能力;二是让灵巧手摆脱遥操作依赖,基于“灵巧世界模型”像人一样使用螺丝刀等工具完成精密装配与复杂操作。 面向更通用的“ChatGPT时刻”,王鹤提出构建结合VLA与世界模型的“世界动作模型(WAM)”。
其最新的LDA模型不仅能在隐空间中推演并执行长周期任务,还具备强大的多任务与跨机器人构型泛化能力,目前已在全家便利店、宁德时代及物流仓储等真实场景实现全自主落地。 最后他总结,将WAM“大脑”与端到端控制器“小脑”结合,并在海量多维数据的驱动下,具身智能必将引爆第四次工业革命。 以下是王鹤在 ICRA 2026 大会发表的演讲精编稿,雷峰网·AI 科技评论基于原英文演讲内容进行了不改原意的翻译编辑:《Towards the AlphaGo and ChatGPT Moments of Embodied AI》主讲人:王鹤(He Wang),银河通用大家好,我是王鹤,银河通用的创始人和CTO。 今天我要演讲的主题是:迈向具身智能的 AlphaGo 时刻与 ChatGPT 时刻。 银河通用(Galbot)是一家致力于开发通用机器人和具身基础模型的独角兽初创公司。 我们的使命是:让通用机器人赋能千行百业,并走进千家万户。 带着这个宏大的使命,我们最好先回顾一下“数字AI”的发展历程,因为数字AI的步伐比具身智能领先了几步。 首先,我们经历了 AlphaGo 时刻:AI首次在一个单一但足够复杂的棋类游戏(围棋)中击败了人类。
然后,人们从单一任务中找到了规模扩张(Scale up)的方法。 这带来了从 GPT-2 到 ChatGPT 时刻的演进,单一模型开始能够处理几乎所有的语言任务。 而现在,人们仍在向着 AGI(通用人工智能)时刻 迈进。 如果我们审视具身智能,我们实际上正在完全遵循这条路径,只不过物理世界的情况截然不同。 为了实现具身智能的“AlphaGo 时刻”,我们必须选择一个足够复杂的任务。 这个任务需要极高的全身协调能力(Whole-body coordination)以及极其复杂的策略,因此,我们选择了网球(Tennis)。 因此,我们首次让完全自主的人形机器人与人类进行真实的对抗,这中间没有任何遥操作,一切都在完全自主模式下进行。 这项突破不仅体现在身体协调上,更体现在高阶策略上。 大家可以看到,我们的机器人学会了如何击败人类。 它在这里,准备就绪并成功回球。 实际上,我们利用了内部的仿真平台来支持强化学习的训练,更重要的是,实现了 Sim2Real的迁移。 实际上,这是与 AlphaGo 最大的不同之处:AlphaGo 是在纯数字世界里下棋,而在物理世界中打网球的 Sim2Real 难度极高。
但我们非常自豪,我们的策略模型可以直接部署在现实世界中,无需任何微调。 人们可能会反驳说:“哦,你们还需要展示一些关于手部精细操作的能力,才能真正宣称达到了 AlphaGo 时刻。 ”。 因此,我们首次让机器人的灵巧手完全像人类一样去使用工具。 大家现在看到的是使用螺丝刀进行精密装配。 我们后续还会看到更多手中操作(In-hand manipulation)的例子,比如使用刀具、锤子,甚至把桌腿安装到桌子上。 我们是如何做到的呢? 我们同样是在仿真器中学习这项技能,但考虑到这个任务具有极高的接触丰富度(Contact-rich),我们需要将模型部署到现实世界中去获取一些展开轨迹,即使初始阶段它的表现可能比较一般。 这些现实轨迹被用来训练一个“灵巧世界模型”,基于神经动力学的残差预测,我们可以利用它进一步大幅改进策略。 接下来是一个与 Figure 机器人的并排对比(Side-by-side comparison)。 看看 Figure 是如何用手指拧开瓶盖的——你会发现它其实是抓紧瓶盖,然后整个手腕旋转,再松开。 这可能是因为他们依赖遥操作(Teleoperation)来收集数据。
然而,如果你使用强化学习(RL),手指之间就能产生自然的协调,做出更加流畅的动作。 此外,像 Nvidia 在 2023 年展示了在仿真器中“转笔(Pen spinning)”,但他们仅仅停留在了仿真阶段。 而我们首次在现实世界中实现了这种连续的灵巧盘玩。 所以,这就是为什么我认为我们即将迎来具身智能的 AlphaGo 时刻,哪怕很多人目前还觉得这些任务难以企及。 那么,下一步是什么? 我们如何才能走向具身智能的 ChatGPT 时刻? 我们需要找到一种方法来定义一个通用模型。 这将是一个结合了 VLA(视觉-语言-动作)和世界模型的“世界动作模型”(World Action Model, WAM)。 要知道,虽然“世界动作模型”已经被公认为是具身基础模型 Scale up 最有希望的路径,但银河通用(Galbot)早就在此前的顶级论文(如ICCV)中定义了它。 如果你在 arXiv 上搜索 World Action Model,最早的论文之一就是来自银河通用的。
我们最新的世界动作模型被称为 LDA(Latent Dynamics Action Model),它实现了从“在像素空间中想象(Imagining in pixels)”到“在隐空间中想象(Imagining in the latent space,即 DINO 空间)”的跨越。 这个模型允许我们执行超长周期(Long-horizon)的任务。 例如,我们可以看到机器人能够完全自主地煎牛排:它加速使用平底锅,抓起牛排,翻面,抽出下面那块,然后移动到盘子里,松开夹子(Tongs),撒上调料——全都是完全自主完成的。 同时,这个单一模型还展现出了强大的多任务能力,从捡起碎玻璃、叠衣服、货架拣货补货,到把肉穿到烤串上(Thread meat onto skewers)。 并且,它能够泛化到不同的机器人构型上:包括带轮子的长臂机器人、带腿的短臂机器人,以及宇树(Unitree)的机器人都能适配。 左边的机器人同样来自银河通用(Galbot),右边也有宇树的 G1 系列。 我们已经在许多实际场景中部署了我们的机器人。
比如,我们接待过一位福克斯新闻(Fox News)的主持人,他参观了第一家由人形机器人运营的全家便利店(Family Mart)。 我们的机器人也在不同的物流仓库中工作,在数十万平米的厂区里经过了多次迭代。 此外,我们的重载(Heavy-duty)机器人已经部署在了宁德时代(CATL)。 这款机器人可以搬运 50 公斤重的物体,处于完全自主模式下。 而且它可以自己更换电池,因此实际有效工作时间是每天24小时。 那么,我们什么时候才能迎来 ChatGPT 时刻呢? 我认为,我们首先需要将“大脑”(Cerebrum)和“小脑”(Cerebellum)结合起来。 “大脑”将是 WAM(世界动作模型),而“小脑”将是一个全身、全手的控制器(Whole-body, whole-hand controller)。 它们绝大多数都将是通过神经网络进行端到端(End-to-end)训练的。 然后,我们要去吸收海量的数据:包括仿真数据、现实世界的遥操作数据,以及第一人称视角数据(Egocentric data)。
在这里,第一人称视角数据是一个极具扩展性的数据源,实际上我们在五年前就开始了第一人称数据收集的研究(即我们的 CVPR 2022 论文)。 这帮助我们构建了一个全面的数据基础设施:从互联网数据、人类第一人称数据、跨构型的仿真数据、现实世界遥操作数据,到基于策略(On-policy)的强化学习奖励数据。 这个数据金字塔将成为推动我们迈向 ChatGPT 时刻的核心燃料。 我相信,整个社区的同仁们都会为了 AGI 时刻全力以赴。 一旦我们到达那里,我们将见证第四次工业革命——它将伴随着智能手机般的普及规模、汽车般的硬件价格,以及大模型带来的巨大溢价。 欢迎大家来我们的 137号展位(Booth 137) 参观,亲自感受一下机器人打网球和货架拣货的震撼体验。 谢谢大家! 去哪看ICRA【演讲/论文】详解? 为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 ICRA 2026 的完整干货,雷峰网已全面上线【ICRA 2026 深度专区】。 专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲,更将持续更新前方记者的第一手会议动态。 扫描下方二维码,或点击「阅读原文」关注专区。
与全球 8000 名顶尖大脑同步呼吸,抢先透视具身智能的下一个五年!
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.
More from 雷峰网机器人
See more →
独家实拍|苏昊旗下机器人全球首次亮相,苏度科技惊艳 ICRA 2026
Sudo Technology showcased its robot at ICRA 2026, achieving nearly 100% Zero-shot success without real data training. The robot, featuring a dual-arm design with 7 degrees of freedom, utilizes a proprietary visual perception system to grasp various objects, highlighting advancements in Sim2Real technology.


