
独家|北大董豪:「仅停留在数据层面的Scaling Law,教不出通用机器人」
Quick Answer
Peking University's Dong Hao advocates for a two-dimensional Scaling Law to enhance embodied AI, combining world models and generative data to improve robot learning efficiency.
Quick Take
Peking University's Dong Hao advocates for a two-dimensional Scaling Law to enhance embodied AI, combining world models and generative data to improve robot learning efficiency. This approach aims to reduce data usage while increasing task success rates, crucial for the widespread deployment of general-purpose humanoid robots.
Key Points
- Current imitation and reinforcement learning methods have significant limitations in robot training.
- Dong's lab achieved fully autonomous laundry processes using a combination of imitation and reinforcement learning.
- The proposed two-dimensional Scaling Law integrates task quantity with data volume for better growth.
- Generative AI can create 50 realistic training samples from a single real-world trajectory.
- The focus on a unified growth curve aims to facilitate the commercialization of general-purpose robots.
Article Content
From source RSS / original summary「数据量×任务量」二维Scaling才是具身AGI正解。 作者丨齐铖湧 编辑丨林觉民 近段时间,具身智能的模型技术迭代方向,节奏放缓,分歧不断。 对此,北大副教授董豪(上纬启元首席科学家)分享了一个新观点:现在主流的模仿学习、强化学习、仿真数据各有硬伤,行业需要换套思路。 在不久前的百度智能云的具身智能论坛上,董豪详细分享了他的想法,董豪主张用二维横向Scaling Law新思路,把世界模型、生成数据、人类示教这些热门技术串成一条线,让机器人任务越学越多的同时,实现数据越用越省。 (雷峰网)董豪坚信,这才是家用和通用人形机器人能大规模落地的关键。 以下为董豪分享内容,经AI科技评论独家获取并做不改变原义的整理删改:01模仿学习只能完成冷启动,单一示范数据存在天然缺陷谈及大模型行业共识的 Scaling Law,董豪将当前具身模型训练划分为两大阶段:预训练依托模仿学习,后置迭代依靠强化学习,两套方案各有显著短板。 模仿学习优势在于快速冷启动,依托标准化人工示范数据,能快速赋予机器人基础操作能力,逻辑与大语言模型训练逻辑相通。 但其致命短板在于训练样本全部为正确轨迹,完全缺失故障、失误样本分布。
即便积累上万条标准操作数据,机器人在真实场景执行出错后,不具备自主调整、纠错能力。 国内已有成熟落地探索,北京智源研究院基于 15 款异构双臂机器人搭建大规模多模态数据集,训练出可跨硬件通用的 VLA 视觉语言动作模型,成为模仿学习路线标杆工程。 仿真赛道同样跑出阶段性成果,上海人工智能实验室推出 InternData-A1 纯仿真合成数据集,无需真机采集,在多项实操任务中,训练完成成功率甚至超过真机实拍数据。 02强化学习补齐容错短板,“模仿 + 强化” 实现全自主连续作业仅依靠模仿学习不足以支撑通用机器人落地,强化学习是行业确定性演进方向。 董豪重点解读经典 Dagger 数据聚合框架,该思路早年已在自动驾驶领域验证价值:纯正常行驶数据会造成模型容错能力缺失,必须补充故障场景样本。 机器人执行失误后接入人工干预,将纠错轨迹纳入训练集,持续提升真机环境任务稳定性。 董豪分享了实验室最新落地成果:团队已实现机器人全自主洗衣流程,设备可自主规划移动路径、开合洗衣机门,抓取衣物失败后会像人类一样主动重试,整套流程无需人工介入。 实践证明,模仿学习打底、强化学习持续迭代的组合方案,能够支撑机器人在固定空间完成高强度连续作业。
03一维缩放逻辑走到尽头,横向二维 Scaling Law 重构行业增长曲线即便实现模仿 + 强化学习闭环,传统一维 Scaling Law 依旧无法描绘通用具身智能的长期增长天花板。 对此董豪提出核心创新观点:横向二维 Scaling Law,在原有数据量维度之外,新增任务数量坐标轴。 这套框架下,随着数据集持续扩充,机器人全新任务初始完成率同步上涨,达成高成功率所需的样本量持续下降。 行业需要规避两种低效增长曲线:数据增长与可掌握任务仅呈线性关系、边际收益持续递减。 理想技术曲线为 “高效红线”—— 伴随模型迭代、数据规模扩张,机器人可掌握的任务数量高速提升,实现 “越学越省”,这也是物理世界 AGI 的必经之路。 近半年行业火热的世界模型、Umi 等技术概念,底层目标全部服务于这条全新增长曲线;真机真实数据、仿真合成数据、硬件无关通用预训练数据,所有技术创新都围绕二维缩放逻辑落地。 04多路径数据增强落地1 条真机数据生成 50 条等效样本、人示教低成本转机器人轨迹。
董豪披露团队最新生成式数据增强研究成果:依托世界模型与生成 AI,单条真机采集轨迹,可生成 50 条物体摆放、空间位置差异化的高逼真等效训练数据,极大缓解真机数据采集成本高、样本稀缺的行业痛点,大幅提升真实数据利用效率。 仿真体系的价值不止基础动作训练,更是家用机器人突破非标家电操作瓶颈的关键。 家用设备型号繁杂、操作逻辑差异大,若模型具备读取说明书、理解设备操作逻辑的能力,将大幅拓宽落地边界。 室内导航、多物体空间关系推演等任务,可通过仿真批量生成海量训练素材;仿真数据与真机数据双向互补,持续拓宽机器人能力边界。 当前前沿模型已可识别各类家电,接收 “焖米饭、榨橙汁” 自然语言指令后,自主匹配设备完成全套操作。 在规模化数据采集层面,团队探索普惠化低成本方案:通过穿戴式手持相机记录人类操作视频,直接转化为机器人可训练轨迹。 同等预算下可获取海量示范数据,持续优化二维缩放增长曲线,长期压低机器人数据采集边际成本。 05行业统一底层逻辑:所有前沿技术,都是为加速二维 Scaling 增长曲线董豪也总结了整场分享核心结论:行业需要跳出传统一维 Scaling Law 思维,以二维双维度视角重构具身智能技术研发思路。
全新增长曲线的核心诉求,是在稳定任务成功率的前提下,依靠增量数据持续拓展机器人可执行任务边界。 当下市场热议的世界模型、Umi、人类视频预训练等不同技术路线,看似方向分散,底层目标高度统一:加速二维高效增长曲线成型。 只有走完这条技术路径,通用具身智能、家用服务机器人才具备规模化商业化落地基础。 (雷峰网)
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.
More from 雷峰网 AI
See more →
从诺奖项目到生成式药物设计,Latent Labs 创始人 Simon Kohl:AI 正在让生物学进入「可编程时代」 | CVPR 2026
Simon Kohl, CEO of Latent Labs, presented at CVPR 2026, highlighting how generative AI, including models like Latent-X1 and Latent-Y, is revolutionizing drug design by drastically reducing development times and costs, achieving up to 90% success rates compared to traditional methods. The transition from AlphaFold 2's structural predictions to autonomous design agents marks a pivotal shift towards programmable biology.

