
对话桥介数物尚阳星:机器人运动能力,远远没有被解决
Quick Take
Shang Yangxing, founder of Qiaojie Shuwu, emphasizes the critical importance of whole-body motion data for robots, arguing that current focus on upper-body control limits their adaptability. The newly launched Cross-Embodiment Whole-Body Motion Data (CWM) factory aims to create a universal motion model, enhancing robots' ability to operate across diverse terrains and tasks without extensive retraining.
Key Points
- CWM factory collects multimodal data, including human motion and environmental information.
- The goal is to develop a universal motion control model for humanoid robots.
- High-quality motion data is essential for long-term stability and adaptability in robots.
- Current robots struggle with generalization across different terrains and tasks.
- Data collection costs approximately hundreds of yuan per hour with a 90% quality rate.
Article Content
From source RSS / original summary全身运动数据的重要性,被低估了。 作者丨向 欣 编辑丨高景辉 雷峰网报道:机器人进入真实世界“干活”,到底需要什么数据? 面对这个问题,大多数具身智能从业者可能都会回答“操作”。 的确,人们干活离不开双手,那么人形机器人的末端精细操作数据,顺理成章地成了重中之重。 但桥介数物创始人尚阳星,给出了一个截然不同的答案。 在他看来,机器人全身运动数据的重要性被大大低估了,机器人想进入真实环境完成复杂任务,仅靠操作能力远远不够,底层的全身运动能力才是基础。 他做了一个比喻:如果把机器人类比成电脑,运动控制能力相当于操作系统的内核,操作模型则是应用软件。 没了底层系统,应用就无法运行。 也就是说,缺少高质量的运动数据和全身运动模型,机器人将难以适应不同地形、应对突发扰动,实现长时间稳定运行和落地。 基于这个判断,桥介数物在半年前启动了“跨本体全身运动数据工厂”的建设,并于近期正式投入使用。 桥介将他们采集的数据定义为跨本体全身运动数据(Cross-Embodiment Whole-Body Motion Data),简称CWM。
CWM包含人体全身动作、第一人称和第三人称视角视频、语义标签、环境信息以及接触与物理状态信息,是一种多模态数据,用于训练通用的全身运动模型,最大的亮点是具备跨本体能力。 有了数据工厂,深耕运动控制基础设施,桥介数物想构建一个人形机器人的通用操作系统,类似于尚阳星早些时候在中国移动具身智能产业大会上提出的Runtime Robot OS(运行时机器人操作系统)。 简单来说,这是一套通用的底层运动能力基础设施,让不同机器人复用同一套运动模型,新机型接入后,也无需再为大量动作重复训练。 桥介的定位也随之发生变化,由具身小脑厂商,成长为具身智能基础设施公司。 不过在某种意义上,这其实是一种回归,尚阳星说:“从创业开始,我想做的就是机器人时代的基础设施。 ”01运动泛化,仍是人形机器人的难题▎AI科技评论:现在机器人Demo已经能跑能跳能越障了,看起来全身运动已经算不上核心瓶颈,为什么你们还要做运动数据工厂? 尚阳星:目前能看到的机器人运动视频,基本都是针对特定场景调出来的。 例如春晚的机器人,七八个工程师花三四个月才能完成一个表演,换个场景就不行了。 这里的核心问题是运动泛化能力差。
我们理解的泛化,是让一套系统适应不同地形、不同机型、不同动作,在复杂环境中长期稳定运行。 现在还没有机器人能做到这一点。 我们之前给客户做运动控制,用的虽是通用框架,但还需针对性适配。 建数据工厂,就是为了训练出真正通用的底层运动模型,让机器人能拥有像人类一样的运动能力,而这件事目前远远没有被解决。 ▎AI科技评论:真实环境里,机器人最容易在哪些地方出问题? 尚阳星:首先是感知问题,当前机器人的感知是被动的,就像人闭着眼睛走路,所以遇到意外时反应很剧烈,人流密集时存在安全隐患。 最近也有些公司发布了机器人的语言交互demo,但这种理解都比较浅,没有对真实外部世界的理解。 其次是长期运行问题。 长时间运行后,关节出现磨损、性能变化时,机器人很难像人类受伤后那样继续调整动作并适应环境,持续学习与自我补偿能力仍然不足。 这都是我们会着力解决的方向。 ▎AI科技评论:做通用的底层运动模型,对具身智能落地有实质性价值吗? 尚阳星:行业大多仅聚焦人形机器人上半身控制,往后要实现机器人全身协同作业,就必须搭建通用全身运动控制基础模型。 依托这套模型,手部动作操作模型可直接部署应用,不用重复解决全身运动适配难题。
▎AI科技评论:机器人全身运动能力那么重要,为什么行业不太重视运动数据,反而都聚焦上半身控制,去采集操作数据了? 尚阳星:因为叠衣服、端咖啡、拧螺丝这些操作类任务成果直观,价值容易被看见。 机器人的运动能力可以视为Windows、iOS这些底层的基础运行系统,操作能力则相当于系统之上的各种APP。 如果没了底层系统,所有应用都无法运行。 机器人也一样,没有稳定的全身运动能力,复杂操作只能局限在固定桌面,无法真正落地。 市场需要大家多做应用,但也需要有人做基础设施。 基础设施平时不被注意,一坏就出问题;做好了却不容易被察觉,但非常重要。 ▎AI科技评论:为什么不去外面买数据,而是选择自建数据工厂? 尚阳星:三个原因。 一是市面上买不到高质量的运动控制数据,卖这类数据的人极少,而且价格贵。 国内专注于运动控制且特别重视这件事的,可能只有桥介。 我们内部之前也有用动捕设备采集,但进度很慢,需要更加工业化、规模化的采集手段。 二是我们发现过去数据都有很强的“本体绑定”问题。 机型变了数据就没法用了,迁移能力很差。 我们需要更多无本体的数据,促进模型快速迭代。 三是我们发现数据量越多,全身运动基础模型表现越好。
这不仅是我们在工作过程中发现的规律,英伟达在一个项目中也提到了这个观点,数据规模越大,模型效果会更好。 英伟达开源了数百小时的运动数据,不过这个量级离上限还差得很远。 既然发现这个领域也存在Scaling Law ,我们就下定决心投入了。 ▎AI科技评论:最近大家都在谈世界模型,很多人认为它会成为机器人理解物理世界的关键能力。 桥介也会往这个方向布局吗? 尚阳星:我们也在训练动作层面的世界模型。 训练世界模型本身也需要大量数据,视频是其中重要的一类。 不过,世界模型可以接受任何形式的视频,但在处理动作这个维度上,需要做一些特殊处理。 02人形机器人,会比四足更先落地▎AI科技评论:你们是怎么采集数据的? 尚阳星:我们的数据工厂使用动捕 + 视频(包括第一人称和第三人称)方式,采集后还会人为标注语义标签。 我们采集的是人类全身运动数据,包括手部和全身的动作,一开始会从不涉及精细操作的全身动作入手。 这类数据可以和行业现有的操作数据配合使用,是一种补充。 ▎AI科技评论:为什么要选择这种采集方式? 这会比行业主流的方式更好吗? 尚阳星:优势在于两点。 一是无本体,数据可以跨本体迁移,且采集更为简单。
很多厂商采用遥操作,数据和本体强绑定,复用性较差,而且还需要人去适应机器人,动捕不需要。 二是数据精度更高。 现在很多人体数据依赖视频提取,全身动作还原精度有限。 要采集高精度、高质量的全身人体动作,目前只有全身动捕这一种方法。 这些高精度数据后续也能用于训练视频动作提取模型。 ▎AI科技评论:去年开始行业开始流行无本体采集方案,UMI就很受欢迎,为什么不用这种成本更低且简易的方案? 尚阳星:UMI 本质上是去掉机器人本体,只保留末端执行器,用夹爪和相机采集数据。 问题在于,如果用夹爪采集,以后本体上的夹爪无法换成其他执行器,灵活性也比人手差,而且视频提取的人体全身动作精度也不够高。 后来行业开始转向采集人体数据,因为人体数据更通用,不会绑定某一个机器人。 新的问题是,人和机器人结构不同,不同机器人之间也有差异,所以人体动作还需要经过重定向和适配。 因此我们特别强调跨本体能力。 ▎AI科技评论:你们的跨本体是如何实现的,有技术壁垒吗? 尚阳星: 迁移中涉及的核心技术是重定向。 我们做了一套自己的重定向引擎,可以自动适配不同机器人构型、动作和地形,还支持边采集边重定向。
行业很多重定向方案只考虑运动学,就是只复现运动轨迹,我们还加入了动力学,会同时考虑重力、受力和平衡问题。 一般的数据工厂都不会做到这一步。 这也属于我们的技术优势。 比如人跳起来是一条抛物线,如果机器人只是照着轨迹模仿,很容易落地失败。 加入动力学后,它会结合自身结构和受力情况调整动作,更符合真实物理规律。 ▎AI科技评论:在数据迁移过程中,哪些构型的机器人更容易迁移,哪些更难? 尚阳星:桥介采集的是人类数据,因此主要面向与人类形态最接近的双足人形机器人。 机器人的形态与人越像,数据迁移越容易;越不像则越难。 ▎AI科技评论:为什么不选落地更容易的四足狗或者轮足人形做运动控制? 很多人觉得,四足狗加个机械臂比人形落地更快、成本更低,轮足在很多场景也够用了。 尚阳星:轮足在特定场景确实够用,但如果目标是物理世界的AGI,就需要更通用的形态,也就是双足人形。 至于落地,我有个非共识的看法:人形机器人会比四足更先落地。 这有点像大语言模型。 语言能力其实是人类后演化出来的,但因为互联网文本数据足够多,所以它反而最先突破。 机器人运动也是一样,过去运动数据没人系统记录,但现在如果开始大规模采集,可能也会很快突破。
03做数据工厂,最难的不是采集▎AI科技评论:你们收集的全身运动数据不涉及精细操作,未来要怎么和市面上的操作数据融合? 尚阳星:我觉得不会有融合问题,或者说我们会把融合做好。 我们更倾向于分层式架构:上层负责认知和任务理解,底层负责实时运动控制,而桥介提供的是底层运动控制模型。 原因是认知模型体量大、推理慢,运动控制模型则对实时性和安全性要求很高,两者很难用同一个模型兼顾。 Figure的具身模型就是多个系统。 未来机器人行业也会像操作系统和应用软件一样,形成更明确的软件分工。 ▎AI科技评论:这其中有个很大的问题是行业数据格式不统一,你们怎么处理? 尚阳星:现在行业的数据格式,大多沿用了影视动画行业的体系,所以标准并没有特别混乱。 出现这个问题的原因之一就是数据和本体强绑定,应该采集无本体数据,现在这已经是大趋势。 ▎AI科技评论:做数据工厂,最难的环节是什么? 尚阳星:数据处理、数据闭环是最难的。 大规模数据需要完整的数据管线,解决调配、算力处理等问题。 数据工厂还要跑通“设计—采集—处理—训练—反馈”的完整闭环,背后涉及大量系统协同和流程管理。 其中采集环节是成本最高的,反馈环节决定数据有效性。
单纯动作采集难度不高,花钱配齐设备就能做,难的是后续整体运营与统筹管理。 ▎AI科技评论:你们怎么定义高质量运动数据,数据质量又如何保障? 尚阳星:高质量数据首先要噪声小、轨迹稳定,动作姿态自然,不能出现肢体穿插、穿透等异常情况。 数据质量主要取决于录制方式和动捕设备精度。 动捕设备直接录制的数据精度高、质量好;从视频提取的数据精度就差不少。 因此在源头环节,就得高精度动捕设备做标准化采集,我们设计了涵盖动作分类、质量权重、标签维度、环境参数、位姿信息及质检标准在内的准入体系。 但设备本身存在局限,难免出现异常数据,所以采集完成后会经过人工核验,程序自动筛选环节,通过自研管线完成跨本体的数据清洗、动作重定向等等,就连训练阶段也会再次筛查。 最后,训练结果还会反向指导数据采集。 比如哪些动作效果不好、哪些场景覆盖不够,都会反馈给采集端,用来调整下一轮的数据采集方向,形成持续优化的数据闭环。 ▎AI科技评论:行业有种观点是脏数据也有用,你们也会收集这类数据吗? 尚阳星:脏数据应该分为两类,任务失败数据和低质量数据,两类数据的价值完全不一样。
大家说的脏数据,应该是指机器人执行任务失利后恢复的数据,比如摔倒后自主起身,这类数据很有采集价值。 而低质量数据,是采集时因设备故障等问题录出来本身就是错误失常的动作数据,这类数据没有用处,不需要留存。 ▎AI科技评论:同时满足高质量和大规模两个要求一直是具身数据领域的难题,桥介是怎么平衡数据规模和数据质量的? 尚阳星: 先用一小批有一定规模、高质量的数据训练模型,再用该模型从视频中挖掘更大规模的数据,相互增强。 视频包含了一切信息,只是目前提取不出来。 就像自动驾驶,视频里可能包含深度信息,但模型能力不够就提取不了,需要视频与深度的配对数据训练模型。 机器人同理,视频包含大量人体动作信息,人看视频就能学会,但当前从视频中提取这些信息的基础设施还没建好。 ▎AI科技评论:训练过程中会用仿真数据吗? 尚阳星:会,而且仿真数据是必须的。 人体数据经过重定向后,机器人还需要在仿真环境里做强化学习训练,用来弥补人体动作和机器人实际执行之间的差距。 离开数据工厂后的复杂环境适应,本质上也依赖强化学习来完成泛化。 ▎AI科技评论:使用的真实数据和仿真数据的比例是多少? 尚阳星:仿真数据会比真实数据多好几个量级。
04我们的最终目标,是做机器人的基础设施▎AI科技评论:现在数据工厂处于什么阶段? 尚阳星:已经跑通了所有流程,在产能爬坡阶段。 过去三个月,我们在内部试点中跑通了跨本体全身运动数据工厂的端到端链路,累计产出了近千小时高质量 CWM 数据,数据训练出的模型在十多款不同足式机器人上完成了验证。 我们规划今年内一天采集数十个小时的数据,一个月就是数千小时。 今年预计会收集上万小时的数据。 ▎AI科技评论:这些数据会带来哪些提升? 未来会开放给行业吗? 尚阳星:主要是我们模型泛化能力的提升,特别是不同动作之间的泛化。 目前机器人跳不高或做不好极端动作,补充更多数据后就能学会。 我们的数据主要服务于内部模型训练,不会直接给外部使用。 但如果有合作方想购买数据,也可以谈。 ▎AI科技评论:具体到产品上,今年会拿出什么? 尚阳星:数据训练出来的能力,会通过我们的平台化产品提供给大家。 去年更多的是非泛化的动作。 今年我们重点解决两个泛化:跨本体和跨机型。 6月我们会推出一个革命性的产品,这会是历史上第一个将机器人运动控制做成标准化方案的产品。 我们的设想是,未来任意机器人接入平台后,就能快速获得对应运动能力,不再为每个动作重复训练。
比如平台可以和机器人拳赛结合,让用户自由组合不同机型的技能,分力量型、速度型等不同能力,不同本体之间的比赛才更有看头。 ▎AI科技评论:目前桥介在数据工厂上的投入,大概是什么量级? 尚阳星:我们采购了一批动捕设备,一套动捕设备约几十万元,再算上场地搭建、团队人员运营等成本,整体投入在千万级别。 ▎AI科技评论:数据合格率高吗? 一条数据的成本是多少? 尚阳星:现在数据合格率可以达到90%以上。 我们不按“条”,按“小时”计价,因为不同数据条的时长差异很大。 一小时数据的采集成本大约是几百元,未来也会继续降本。 ▎AI科技评论:如果想让机器人真正达到接近人类的运动能力,需要多大规模的数据量? 尚阳星:大概需要几十万小时量级的数据,人形机器人运动才会达到很好效果。 这是基于人的一生约几十万小时推断,但人动作有重复,也不可能做遍所有动作,所以只是非常粗略的估算。 如果数据量上来,发现数据对模型训练没用了,我们也会停止。 ▎AI科技评论:这么说的话,聚焦运动控制,天花板会不会很低,未来你们还会拓展其他方向吗? 尚阳星:等到集齐足量运动数据、机器人运动能力成熟后,我们也不会止步于此。
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.
More from 雷峰网机器人
See more →
独家实拍|苏昊旗下机器人全球首次亮相,苏度科技惊艳 ICRA 2026
Sudo Technology showcased its robot at ICRA 2026, achieving nearly 100% Zero-shot success without real data training. The robot, featuring a dual-arm design with 7 degrees of freedom, utilizes a proprietary visual perception system to grasp various objects, highlighting advancements in Sim2Real technology.


