对话桥介数物尚阳星：机器人运动能力，远远没有被解决

6/3/2026

·~5 min·6/3/2026·zh·5

Quick Answer

Shang Yangxing, founder of Qiaojie Shuwu, emphasizes the critical importance of whole-body motion data for robots, arguing that current focus on upper-body control limits their adaptability.

Quick Take

Shang Yangxing, founder of Qiaojie Shuwu, emphasizes the critical importance of whole-body motion data for robots, arguing that current focus on upper-body control limits their adaptability. The newly launched Cross-Embodiment Whole-Body Motion Data (CWM) factory aims to create a universal motion model, enhancing robots' ability to operate across diverse terrains and tasks without extensive retraining.

Key Points

CWM factory collects multimodal data, including human motion and environmental information.
The goal is to develop a universal motion control model for humanoid robots.
High-quality motion data is essential for long-term stability and adaptability in robots.
Current robots struggle with generalization across different terrains and tasks.
Data collection costs approximately hundreds of yuan per hour with a 90% quality rate.

📖 Reader Mode

~5 min read

全身运动数据的重要性，被低估了。

作者丨向欣

编辑丨高景辉

雷峰网(公众号：雷峰网)报道：机器人进入真实世界“干活”，到底需要什么数据？

面对这个问题，大多数具身智能从业者可能都会回答“操作”。的确，人们干活离不开双手，那么人形机器人的末端精细操作数据，顺理成章地成了重中之重。

但桥介数物创始人尚阳星，给出了一个截然不同的答案。

在他看来，机器人全身运动数据的重要性被大大低估了，机器人想进入真实环境完成复杂任务，仅靠操作能力远远不够，底层的全身运动能力才是基础。

他做了一个比喻：如果把机器人类比成电脑，运动控制能力相当于操作系统的内核，操作模型则是应用软件。没了底层系统，应用就无法运行。

也就是说，缺少高质量的运动数据和全身运动模型，机器人将难以适应不同地形、应对突发扰动，实现长时间稳定运行和落地。

基于这个判断，桥介数物在半年前启动了“跨本体全身运动数据工厂”的建设，并于近期正式投入使用。

桥介将他们采集的数据定义为跨本体全身运动数据（Cross-Embodiment Whole-Body Motion Data），简称CWM。

CWM包含人体全身动作、第一人称和第三人称视角视频、语义标签、环境信息以及接触与物理状态信息，是一种多模态数据，用于训练通用的全身运动模型，最大的亮点是具备跨本体能力。

有了数据工厂，深耕运动控制基础设施，桥介数物想构建一个人形机器人的通用操作系统，类似于尚阳星早些时候在中国移动具身智能产业大会上提出的Runtime Robot OS（运行时机器人操作系统）。

简单来说，这是一套通用的底层运动能力基础设施，让不同机器人复用同一套运动模型，新机型接入后，也无需再为大量动作重复训练。

桥介的定位也随之发生变化，由具身小脑厂商，成长为具身智能基础设施公司。不过在某种意义上，这其实是一种回归，尚阳星说：“从创业开始，我想做的就是机器人时代的基础设施。”

运动泛化，仍是人形机器人的难题

▎AI科技评论：现在机器人Demo已经能跑能跳能越障了，看起来全身运动已经算不上核心瓶颈，为什么你们还要做运动数据工厂？

尚阳星：目前能看到的机器人运动视频，基本都是针对特定场景调出来的。例如春晚的机器人，七八个工程师花三四个月才能完成一个表演，换个场景就不行了。

这里的核心问题是运动泛化能力差。我们理解的泛化，是让一套系统适应不同地形、不同机型、不同动作，在复杂环境中长期稳定运行。现在还没有机器人能做到这一点。

我们之前给客户做运动控制，用的虽是通用框架，但还需针对性适配。建数据工厂，就是为了训练出真正通用的底层运动模型，让机器人能拥有像人类一样的运动能力，而这件事目前远远没有被解决。

▎AI科技评论：真实环境里，机器人最容易在哪些地方出问题？

尚阳星：首先是感知问题，当前机器人的感知是被动的，就像人闭着眼睛走路，所以遇到意外时反应很剧烈，人流密集时存在安全隐患。最近也有些公司发布了机器人的语言交互demo，但这种理解都比较浅，没有对真实外部世界的理解。

其次是长期运行问题。长时间运行后，关节出现磨损、性能变化时，机器人很难像人类受伤后那样继续调整动作并适应环境，持续学习与自我补偿能力仍然不足。这都是我们会着力解决的方向。

▎AI科技评论：做通用的底层运动模型，对具身智能落地有实质性价值吗？

尚阳星：行业大多仅聚焦人形机器人上半身控制，往后要实现机器人全身协同作业，就必须搭建通用全身运动控制基础模型。依托这套模型，手部动作操作模型可直接部署应用，不用重复解决全身运动适配难题。

▎AI科技评论：机器人全身运动能力那么重要，为什么行业不太重视运动数据，反而都聚焦上半身控制，去采集操作数据了？

尚阳星：因为叠衣服、端咖啡、拧螺丝这些操作类任务成果直观，价值容易被看见。

机器人的运动能力可以视为Windows、iOS这些底层的基础运行系统，操作能力则相当于系统之上的各种APP。如果没了底层系统，所有应用都无法运行。

机器人也一样，没有稳定的全身运动能力，复杂操作只能局限在固定桌面，无法真正落地。

市场需要大家多做应用，但也需要有人做基础设施。基础设施平时不被注意，一坏就出问题；做好了却不容易被察觉，但非常重要。

▎AI科技评论：为什么不去外面买数据，而是选择自建数据工厂？

尚阳星：三个原因。一是市面上买不到高质量的运动控制数据，卖这类数据的人极少，而且价格贵。国内专注于运动控制且特别重视这件事的，可能只有桥介。我们内部之前也有用动捕设备采集，但进度很慢，需要更加工业化、规模化的采集手段。

二是我们发现过去数据都有很强的“本体绑定”问题。机型变了数据就没法用了，迁移能力很差。我们需要更多无本体的数据，促进模型快速迭代。

三是我们发现数据量越多，全身运动基础模型表现越好。这不仅是我们在工作过程中发现的规律，英伟达在一个项目中也提到了这个观点，数据规模越大，模型效果会更好。英伟达开源了数百小时的运动数据，不过这个量级离上限还差得很远。既然发现这个领域也存在Scaling Law ，我们就下定决心投入了。

▎AI科技评论：最近大家都在谈世界模型，很多人认为它会成为机器人理解物理世界的关键能力。桥介也会往这个方向布局吗？

尚阳星：我们也在训练动作层面的世界模型。训练世界模型本身也需要大量数据，视频是其中重要的一类。不过，世界模型可以接受任何形式的视频，但在处理动作这个维度上，需要做一些特殊处理。

人形机器人，会比四足更先落地

▎AI科技评论：你们是怎么采集数据的？

尚阳星：我们的数据工厂使用动捕 + 视频（包括第一人称和第三人称）方式，采集后还会人为标注语义标签。

我们采集的是人类全身运动数据，包括手部和全身的动作，一开始会从不涉及精细操作的全身动作入手。这类数据可以和行业现有的操作数据配合使用，是一种补充。

▎AI科技评论：为什么要选择这种采集方式？这会比行业主流的方式更好吗？

尚阳星：优势在于两点。一是无本体，数据可以跨本体迁移，且采集更为简单。很多厂商采用遥操作，数据和本体强绑定，复用性较差，而且还需要人去适应机器人，动捕不需要。

二是数据精度更高。现在很多人体数据依赖视频提取，全身动作还原精度有限。要采集高精度、高质量的全身人体动作，目前只有全身动捕这一种方法。这些高精度数据后续也能用于训练视频动作提取模型。

▎AI科技评论：去年开始行业开始流行无本体采集方案，UMI就很受欢迎，为什么不用这种成本更低且简易的方案？

尚阳星：UMI 本质上是去掉机器人本体，只保留末端执行器，用夹爪和相机采集数据。问题在于，如果用夹爪采集，以后本体上的夹爪无法换成其他执行器，灵活性也比人手差，而且视频提取的人体全身动作精度也不够高。

后来行业开始转向采集人体数据，因为人体数据更通用，不会绑定某一个机器人。

新的问题是，人和机器人结构不同，不同机器人之间也有差异，所以人体动作还需要经过重定向和适配。因此我们特别强调跨本体能力。

▎AI科技评论：你们的跨本体是如何实现的，有技术壁垒吗？

尚阳星： 迁移中涉及的核心技术是重定向。我们做了一套自己的重定向引擎，可以自动适配不同机器人构型、动作和地形，还支持边采集边重定向。

行业很多重定向方案只考虑运动学，就是只复现运动轨迹，我们还加入了动力学，会同时考虑重力、受力和平衡问题。一般的数据工厂都不会做到这一步。这也属于我们的技术优势。

比如人跳起来是一条抛物线，如果机器人只是照着轨迹模仿，很容易落地失败。加入动力学后，它会结合自身结构和受力情况调整动作，更符合真实物理规律。

▎AI科技评论：在数据迁移过程中，哪些构型的机器人更容易迁移，哪些更难？

尚阳星：桥介采集的是人类数据，因此主要面向与人类形态最接近的双足人形机器人。机器人的形态与人越像，数据迁移越容易；越不像则越难。

▎AI科技评论：为什么不选落地更容易的四足狗或者轮足人形做运动控制？很多人觉得，四足狗加个机械臂比人形落地更快、成本更低，轮足在很多场景也够用了。

尚阳星：轮足在特定场景确实够用，但如果目标是物理世界的AGI，就需要更通用的形态，也就是双足人形。

至于落地，我有个非共识的看法：人形机器人会比四足更先落地。

这有点像大语言模型。语言能力其实是人类后演化出来的，但因为互联网文本数据足够多，所以它反而最先突破。机器人运动也是一样，过去运动数据没人系统记录，但现在如果开始大规模采集，可能也会很快突破。

做数据工厂，最难的不是采集

▎AI科技评论：你们收集的全身运动数据不涉及精细操作，未来要怎么和市面上的操作数据融合？

尚阳星：我觉得不会有融合问题，或者说我们会把融合做好。我们更倾向于分层式架构：上层负责认知和任务理解，底层负责实时运动控制，而桥介提供的是底层运动控制模型。

原因是认知模型体量大、推理慢，运动控制模型则对实时性和安全性要求很高，两者很难用同一个模型兼顾。Figure的具身模型就是多个系统。

未来机器人行业也会像操作系统和应用软件一样，形成更明确的软件分工。

▎AI科技评论：这其中有个很大的问题是行业数据格式不统一，你们怎么处理？

尚阳星：现在行业的数据格式，大多沿用了影视动画行业的体系，所以标准并没有特别混乱。

出现这个问题的原因之一就是数据和本体强绑定，应该采集无本体数据，现在这已经是大趋势。

▎AI科技评论：做数据工厂，最难的环节是什么？

尚阳星：数据处理、数据闭环是最难的。

大规模数据需要完整的数据管线，解决调配、算力处理等问题。数据工厂还要跑通“设计—采集—处理—训练—反馈”的完整闭环，背后涉及大量系统协同和流程管理。

其中采集环节是成本最高的，反馈环节决定数据有效性。单纯动作采集难度不高，花钱配齐设备就能做，难的是后续整体运营与统筹管理。

▎AI科技评论：你们怎么定义高质量运动数据，数据质量又如何保障？

尚阳星：高质量数据首先要噪声小、轨迹稳定，动作姿态自然，不能出现肢体穿插、穿透等异常情况。

数据质量主要取决于录制方式和动捕设备精度。动捕设备直接录制的数据精度高、质量好；从视频提取的数据精度就差不少。

因此在源头环节，就得高精度动捕设备做标准化采集，我们设计了涵盖动作分类、质量权重、标签维度、环境参数、位姿信息及质检标准在内的准入体系。

但设备本身存在局限，难免出现异常数据，所以采集完成后会经过人工核验，程序自动筛选环节，通过自研管线完成跨本体的数据清洗、动作重定向等等，就连训练阶段也会再次筛查。

最后，训练结果还会反向指导数据采集。比如哪些动作效果不好、哪些场景覆盖不够，都会反馈给采集端，用来调整下一轮的数据采集方向，形成持续优化的数据闭环。

▎AI科技评论：行业有种观点是脏数据也有用，你们也会收集这类数据吗？

尚阳星：脏数据应该分为两类，任务失败数据和低质量数据，两类数据的价值完全不一样。

大家说的脏数据，应该是指机器人执行任务失利后恢复的数据，比如摔倒后自主起身，这类数据很有采集价值。

而低质量数据，是采集时因设备故障等问题录出来本身就是错误失常的动作数据，这类数据没有用处，不需要留存。

▎AI科技评论：同时满足高质量和大规模两个要求一直是具身数据领域的难题，桥介是怎么平衡数据规模和数据质量的？

尚阳星： 先用一小批有一定规模、高质量的数据训练模型，再用该模型从视频中挖掘更大规模的数据，相互增强。

视频包含了一切信息，只是目前提取不出来。就像自动驾驶，视频里可能包含深度信息，但模型能力不够就提取不了，需要视频与深度的配对数据训练模型。

机器人同理，视频包含大量人体动作信息，人看视频就能学会，但当前从视频中提取这些信息的基础设施还没建好。

▎AI科技评论：训练过程中会用仿真数据吗？

尚阳星：会，而且仿真数据是必须的。人体数据经过重定向后，机器人还需要在仿真环境里做强化学习训练，用来弥补人体动作和机器人实际执行之间的差距。

离开数据工厂后的复杂环境适应，本质上也依赖强化学习来完成泛化。

▎AI科技评论：使用的真实数据和仿真数据的比例是多少？

尚阳星：仿真数据会比真实数据多好几个量级。

我们的最终目标，是做机器人的基础设施

▎AI科技评论：现在数据工厂处于什么阶段？

尚阳星：已经跑通了所有流程，在产能爬坡阶段。过去三个月，我们在内部试点中跑通了跨本体全身运动数据工厂的端到端链路，累计产出了近千小时高质量 CWM 数据，数据训练出的模型在十多款不同足式机器人上完成了验证。

我们规划今年内一天采集数十个小时的数据，一个月就是数千小时。今年预计会收集上万小时的数据。

▎AI科技评论：这些数据会带来哪些提升？未来会开放给行业吗？

尚阳星：主要是我们模型泛化能力的提升，特别是不同动作之间的泛化。目前机器人跳不高或做不好极端动作，补充更多数据后就能学会。

我们的数据主要服务于内部模型训练，不会直接给外部使用。但如果有合作方想购买数据，也可以谈。

▎AI科技评论：具体到产品上，今年会拿出什么？

尚阳星：数据训练出来的能力，会通过我们的平台化产品提供给大家。

去年更多的是非泛化的动作。今年我们重点解决两个泛化：跨本体和跨机型。

6月我们会推出一个革命性的产品，这会是历史上第一个将机器人运动控制做成标准化方案的产品。

我们的设想是，未来任意机器人接入平台后，就能快速获得对应运动能力，不再为每个动作重复训练。

比如平台可以和机器人拳赛结合，让用户自由组合不同机型的技能，分力量型、速度型等不同能力，不同本体之间的比赛才更有看头。

▎AI科技评论：目前桥介在数据工厂上的投入，大概是什么量级？

尚阳星：我们采购了一批动捕设备，一套动捕设备约几十万元，再算上场地搭建、团队人员运营等成本，整体投入在千万级别。

▎AI科技评论：数据合格率高吗？一条数据的成本是多少？

尚阳星：现在数据合格率可以达到90%以上。我们不按“条”，按“小时”计价，因为不同数据条的时长差异很大。一小时数据的采集成本大约是几百元，未来也会继续降本。

▎AI科技评论：如果想让机器人真正达到接近人类的运动能力，需要多大规模的数据量？

尚阳星：大概需要几十万小时量级的数据，人形机器人运动才会达到很好效果。这是基于人的一生约几十万小时推断，但人动作有重复，也不可能做遍所有动作，所以只是非常粗略的估算。

如果数据量上来，发现数据对模型训练没用了，我们也会停止。

▎AI科技评论：这么说的话，聚焦运动控制，天花板会不会很低，未来你们还会拓展其他方向吗？

尚阳星：等到集齐足量运动数据、机器人运动能力成熟后，我们也不会止步于此。先依靠海量全身运动动捕数据打好基础，让模型拥有动作组合能力，可灵活搭配不同动作完成各类任务。

后续场景类、融合感知的规划数据，可依托成熟模型从视频中提取，覆盖海量复杂现实场景。

我们的最终目标是提供基础设施，让用户在平台上做组合创新，壁垒在于构建应用生态。

▎AI科技评论：基础设施的概念，听起来比你们之前“小脑厂商”的定位更为宏大。

尚阳星：其实从创业开始，我们想做的就是通用机器人时代的基础设施厂商。运动控制虽然不等于操作系统，但是操作系统中很重要的一部分。桥介的长期定位是做人形机器人的操作系统，打造生态。

▎AI科技评论：之前有投资人和你说，你做硬件他们才投，现在他们的看法改变了吗？

尚阳星：我们最近每天都在接待投资人，最近关闭了一轮融资，正在开启新一轮融资。我感觉越来越多投资人都看明白了，有投资人和我直说，硬件现在太卷了，投了那么多家，最后能留下来的估计没几家。有长期价值的是底层平台能力。（雷峰网）

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

— Originally published at leiphone.com

Continue reading on leiphone.com

Want this in your inbox every morning?

Daily brief at your local 8am — bilingual EN/中文, free.

Subscribe — it's free

More from 雷峰网机器人

See more →

给机器人造一座「数据工厂」，小米 Robotics-U0 如何破解具身智能最难的一道题？

雷峰网机器人

2d ago

FeaturedOriginal

给机器人造一座「数据工厂」，小米 Robotics-U0 如何破解具身智能最难的一道题？

AI Summary

Xiaomi's Robotics-U0 integrates multiple generative tasks into a unified model, enhancing robotic training data generation by 82.9 times, achieving top scores in WorldArena benchmarks, and improving task completion rates by 26.3% in challenging environments.

#Inference #Robotics #AI Startup