
对话它石智航丁文超:具身智能,如何迈进「2.0时代」?| ICRA 2026
Quick Answer
At ICRA 2026, Dr.
Quick Take
At ICRA 2026, Dr. Ding Wenchao from Itstone highlighted the transition of embodied intelligence from 1.0 to 2.0, emphasizing scalable data collection and the World Action Model paradigm. The company showcased advancements in human-centric data acquisition and sophisticated robotic manipulation, aiming for commercial viability in complex tasks like flexible wiring assembly.
Key Points
- Itstone aims to transition embodied intelligence to a scalable 2.0 era by 2026.
- The showcased SenseHub device enhances human-centric data collection for model training.
- Dr. Ding identified the need for a complete data loop for reliable model performance.
- Current focus is on flexible wiring assembly, requiring millimeter-level precision.
- The company plans to leverage high-quality data over sheer volume for model improvement.
Article Content
From source RSS / original summary基座模型、数据飞轮与末端执行缺一不可。 作者丨高景辉 编辑丨马晓宁 2026 年 6 月的维也纳,ICRA展厅里挤满了来自全球的机器人公司,三年前还在 PPT 上展示概念的具身智能,如今已经变成了满地跑的人形机器人。 但热闹之下,焦虑正在蔓延。 当下的机器人虽然能跑能跳,但依然难以进入真实场景创造价值,形成技术和商业的闭环,其所需要的模型、硬件和数据能力,似乎也只有为数不多的企业具备。 以至于业内的感受是,当下大多数的具身智能,都还停留在“1. 0时代”。 那么,具身智能要如何进入“2. 0时代”,实现阶段性的突破呢? 带着这个问题,雷峰网·AI科技评论来到了 ICRA 2026 的现场,试图从全球具身智能领域的顶尖学术成果和头部企业中找到答案。 在这样的背景下,它石智航提供了一个值得观察的样本。 作为两个月前刚完成中国具身智能最大单笔融资的明星企业,相比单独展示某个demo,它石智航选择对世界强调一套完整链路:从真实人类数据的采集,到模型侧成果AWE 3. 0,再到此次正式首秀的灵巧手,与机器人本体复杂操作的执行。 这也让问题进一步聚焦:人形机器人要真正创造价值,比的已不是单一的“长板”,而是面面俱到的全栈能力?
为了回答这个问题,AI科技评论在 ICRA 2026 现场与它石智航首席科学家丁文超博士进行了一次深度交流,试图从最顶级的这批从业者口中,找到具身智能通往2. 0时代的钥匙。 01具身智能进入2. 0时代,离不开工程化能力▎AI科技评论:它石这次在 ICRA 上会带来模型、灵巧手及相关数采方案,为何选择这个时间点进行系列成果发布? 丁文超:主要有两方面原因。 第一是行业规律,物理 AI 行业中往往会在关键技术积累到一定阶段后,迎来一波技术爆发,它石智航从成立到此次 ICRA,也基本走到了这样一个阶段,今年年中除 ICRA 外,我们还有其他成体系的对外展示规划,技术状态也已到位。 第二是 ICRA 是全球综合规模、含金量和技术扎实程度都属旗舰级的会议,受众覆盖大众,业界和学术界专家学者参与度高,国内赞助商均为头部企业,是很好的国际化展示窗口。 当然不止是ICRA,后续几个节点我们也有相关发布规划。 ▎AI科技评论:现在有人将具身智能分为 1. 0、2. 0 时代,您认为出现这种区分的原因是什么? 两个时代的本质区别在哪里? 丁文超:核心是技术范式的改变。
具身智能大致分为几个阶段:首先是萌芽期,2023 年初到 2024 年,行业对具身智能的落地场景和实现方法尚不明确,企业主要做两件事,一是造本体,当时涌现出了大量本体公司;二是智能层面方法论不明晰,出现了 ACT、DP 等小模型。 接着是具身智能 1. 0 时代,以 2024 年为代表,VLA 范式进入具身及自动驾驶等领域,该范式以遥操作为核心数据采集方法,以大模型为骨干网络加动作的“头”,实现一定泛化能力。 这一时代催生了首批“大脑”企业,大家同质化地建设数据采集工厂、售卖机器人本体作为数采设备、训练 VLA 模型。 但 1. 0 时代存在明显问题:一是遥操作依赖限定场景的数据获取,无法深入千行百业;二是简单拼接 VLM 的模型架构并非根本解法,VLM 的泛化能力并未真正迁移到机器人上,行业对此较为失望。 2025-2026年进入具身智能2. 0 时代,包括它石在内的公司开始探索更加scalable 的数据采集方式和更通用的模型范式。 2.
0 时代有两大核心特征:一是以 Human-centric/Ego-centric 为核心的数据范式爆发,2026年被称为无本体数据采集元年;二是以World Action Model 世界动作模型为核心的模型范式爆发,其泛化性和可扩展性较上一代有明显提升。 未来具身还会迎来 3. 0 时代,当前 2. 0 时代主要在吸收预训练红利,3. 0 时代将引入以世界模型为驱动的后训练能力,让具身智能同时具备泛化能力和场景生产力。 每个时代都会催生新的技术范式和对应团队。 ▎AI科技评论:部分企业仍停留在 1. 0 时代,他们卡在哪一步? 是数据问题吗? 丁文超:短期来说是范式转变的难度。 有一个反常识的点,尽管 Human-centric/Ego-centric 理念看似深入人心,但不少人仍对此持质疑和观望态度。 这种状态在自动驾驶端到端技术推广早期也出现过,当时很多人质疑其安全性、可解释性,可能只有被市场倒逼时才会转向。 ▎AI科技评论:它石为何能快速进入 2. 0 时代? 丁文超:核心有两点。 第一是坚持第一性原理思考,这听上去很简单,但其实蛮难的。
在 2024 年底 VLA 和遥操作火热时,我们就开始思考如何进一步 scale up,不受外部主流技术路线影响。 第二是极强的工程化能力,目前很多企业开始做 Human-centric/Ego-centric,但还未进入深水区,而我们2025 年就已投入大量精力迭代数采设备,从零到一设计制造了一套可穿戴数采设备SenseHub,打通了适用于无本体数据的模型训练和部署范式,并在本体上优化到极致。 这两点是我们能提前布局并取得成果的关键。 ▎AI科技评论:今年被很多人称为具身智能商业化元年,2. 0 时代也很看重商业闭环能力,你们在商业化和真实场景应用方面有哪些进展? 丁文超:具身公司容易陷入两个极端,一是布局过多场景,分散注意力,拖慢基础模型迭代速度;二是不落地,只专注刷模型,这两种都无法形成良性循环。 其实参考大模型的商业化经验,大模型理论上可覆盖千行百业,其中 ROI 最高的是 Vibe coding,而这项能力还能反向解锁更多场景。 具身智能目前也处于类似状态,在通用模型爆发前夜,既需要保持通用模型的持续竞争力,也要聚焦核心落地场景。
我们目前聚焦线束柔性装配场景,这个场景需要将柔性线束以毫米级精度插入孔位,完成长程连续的布线、插接及缠胶等工序,相当于制造汽车的 “血管”。 我们现在的商业化的进展还不错。 而之所以选择该场景主要有三点考量:一是单场景用工需求量大,避免了部分场景需求分散、设备用量少的问题;二是属于柔性制造且是长程任务,技术门槛高,同质化竞争少;三是能反向推动基础模型迭代。 ▎AI科技评论:上次在 AWE 上看到了你们的线束演示,和这次 ICRA 现场展示的有何不同? 丁文超:这次现场除了会展示线束子任务,还会展示多个其他任务,体现模型的泛化能力。 和上次 AWE 展示不同,本次会展示线束长程任务,让模型端到端连续完成多根线的抓取、插接操作,过程中可自主纠错、自主适应,每根线的插入精度达到亚毫米级。 02如果具身智能存在 scaling law,一定是由原生基座模型涌现出来的▎AI科技评论:什么样的模型是好的模型? 丁文超:好的模型核心特点是要足够简单,只有简单的架构才容易规模化。 好模型的架构清晰直接,但能消化各类数据。 数据处理和模型部署的工程化可以复杂,但模型结构本身要简单直接。 对具身模型来说,这个领域其实没有新鲜事。
VLA 模型的本质是大语言的 scaling law 被验证后,行业将 VLM 的泛化能力迁移到具身领域的尝试,但其核心问题是真正可规模化的部分与实际场景脱节。 VLA 的训练数据分为两类,一类是易规模化的传统大模型数据,另一类是极少的机器人执行任务数据,两者严重不对等。 所谓 VLA 的泛化能力其实是 VLM 的能力,并未真正迁移到机器人上,在全新场景中,VLA 仍需通过遥操作采集动作数据微调动作头部才能运行。 当前世界模型成为热点,核心是将视频预测模型应用于具身智能,视频预测模型本身具备 scaling law,相比 VLA 有两大优势:一是统一了跨本体问题,不挑视角,能吸收来自人或机器人的各类视频和动作数据,缩小了人与机器人任务数据的差距;二是放松了对现场遥操作数据的依赖。 但世界模型仍是将视频模型能力迁移到具身领域,并非最优解。 目前行业头部公司都在追求训练具身原生基座模型,即从数据采集到模型训练、预测、推理全流程贯穿语言、视觉、动作三种模态,吸收千行百业的数据。 如果具身智能存在 scaling law,一定是由原生基座模型涌现出来的。
我们的 AWE 模型全称是 AI World Engine,本质是以 AI 为驱动的世界引擎。 仿真器难以规模化,而用数据学习的世界模型能同时告知未来的动作和动作的后果,具备极强的可扩展性,其终局是成为具身原生基座模型。 ▎AI科技评论:你们的模型相比其他世界模型和之前的 VLA,在实际执行任务时有什么优势? 线束任务的出色效果是如何实现的? 丁文超:核心优势体现在数据和训练范式两个点上。 第一,我们的无本体采集数据质量远超行业平均水平。 很多企业低估了数据部署到机器人上的难度和精度要求,人作为灵活的本体,需要轻量且高精度的采集设备,我们自研的数采设备能获取高质量的人的末端动作数据,在数据多样性和动作精度上优势明显。 第二,我们采用了独特的技能转换训练范式。 预训练阶段吸收大量人类数据后,在特定场景的后训练阶段,我们摒弃了遥操作采集数据的方式,因为遥操作容易引入抖动等噪声数据,纯人类数据训练反而更干净简洁。 模型精度的提升需要全流程打磨,从数据采集、动作标签增值、模型训练到部署,每个环节都存在技术难点。 ▎AI科技评论:这次 ICRA 现场它石展示了亚毫米级线束操作和打包任务,这两个任务分别有哪些技术难点?
丁文超:两个任务的难点差异明显。 线束任务的核心难点是动作精细度要求极高,需要在操作柔性物体的同时达到亚毫米级精度。 该任务对数据的稳定性要求极高,因为模型是端到端的,数据中的瑕疵会直接映射为模型的瑕疵。 打包等其他泛化任务的精度要求为毫米级或亚厘米级,核心难点是应对动态变化的任务场景,考验模型的自主纠错和自主恢复能力。 这种能力只有在训练数据和任务的多样性、量级达到一定程度时才会涌现,我们本次展示的不同任务正是针对性体现模型不同层面的能力,现场还会设置互动任务,模型可克服人为扰动完成操作。 ▎AI科技评论:行业普遍担心世界模型的幻觉问题会导致严重后果,你们是如何解决这个问题的? 丁文超:如果直接将 video prediction(视频预测)引入世界模型,最常见的幻觉问题是穿模,比如模型视野中被抓取的物体突然消失,导致动作策略异常。 我们解决该问题的核心是对 3D 隐空间进行建模。 现有世界模型普遍缺乏长时记忆,只有短时的像素到像素预测能力,而对空间的理解需要沉淀下来的长时信息。 我们的模型在预训练阶段针对性强化了空间感知建模,在模型工作空间内基本能实现极强的一致性,这是 AWE 模型的特色之一。
▎AI科技评论:在真实环境中,有哪些机制能保障模型工作的安全性和可靠性? 丁文超:主要有二层保障机制。 第一,训练模型自主从错误中恢复的能力,训练阶段会特意加入相关数据进行针对性训练。 第二,搭建完整的数据闭环体系,这也是从自动驾驶领域借鉴的经验。 模型始终会犯错,关键是能回收失败案例的数据,通过快速的数据闭环挖掘正确数据和故障恢复数据,持续迭代模型。 目前具身行业的数据闭环完备程度普遍低于端到端自动驾驶,我们正在加速搭建这套体系,实现模型安全性和可靠性的渐进式提升。 03数据并非越多越好,重点是高质量数据▎AI科技评论:你们很早就提出了以人为中心的数据范式,为何从一开始就押注这条路线? 对于遥操作、仿真合成、UMI等其他数据采集方式您又是如何看待的? 丁文超:因为在我们的判断中,其他方式都无法支撑通用具身基础模型的规模化发展。 遥操作仅适合后训练,不适合预训练和规模化,无法走向通用具身基础模型。 仿真数据仅在局部简单任务中有价值,比如局部运动仿真,能模拟全身运动和环境的简单接触交互,但无法模拟真实世界的复杂交互,不具备可扩展性。
UMI更多是科研态的方案,能通过单末端完成部分任务,为规模化提供科研牵引,但并非完整的系统,无法真正实现规模化。 我们自研的数采套件综合考虑了以上所有因素,具备三大特点:一是兼容多种采集模式,支持纯头带、头带加手套、头带加夹爪等组合;二是所有传感器均实现高精度时空同步,满足部署态要求;三是动作精度高,配套自动化数据管线可恢复动作和场景语义,且设备便携,能以人为中心获取各行各业的数据。 ▎AI科技评论:行业存在仿真和真机数据配比的争论,你们是否有明确的配比? 丁文超:目前行业基本共识是用 Human-centric 数据做预训练,但用仿真做后训练并非好选择,因为仿真器存在太多人工痕迹,适合做评测,无法支撑模型的持续自我提升。 数据配比需根据任务精度要求调整:对于线束这类精度要求极高的任务,基本采用全人类数据,因为只有人能达到对应的精度;对于亚厘米级精度的任务,可加入部分机器人数据。 理想状态下,通用模型用 50 万小时人类数据做预训练,单个任务仅需 1 小时左右的单任务数据即可完成适配。 ▎AI科技评论:你们目前的数据积累进度如何? 数据量增加是否会让模型能力提升更快? 丁文超:我们仍在朝着百万小时有效数据的目标推进。
排除高度重复的无效数据后,我们每日获取的丰富多样的有效数据规模处于行业 top1。 随着数据量增加,模型能力提升速度的确会明显加快,这也是我们计划在 2026 年中进行系列发布的原因,预计 2026-2027 年具身智能在操作侧会取得巨大进步。 ▎AI科技评论:以后会不会发现实际需要的数据并没有那么多? 丁文超:数据并非越多越好。 低质量的纯 ego 数据会越来越便宜、越来越平权,只能作为打底数据让模型具备基本认知,类似大模型的通用语料。 互联网上的海量视频数据并未催生出通用具身智能,也证明了纯低质量数据的局限性。 而高质量的场景化数据价值会持续凸显,这和大模型的发展趋势一致,未来数据的竞争核心是高质量数据而非数据总量。 ▎AI科技评论:数据跨境和隐私安全是第三方数采公司关心的重点,您认为未来国内外数据是否会互通? 丁文超:未来国内外数据不互通的可能性较大,数据的流通性和场景高度相关。 如果企业有海外业务,需要在当地合规、合法、符合隐私政策地获取数据。 04好的灵巧手要“手脑一体”,满足模型的部署需求▎AI科技评论:数据与硬件存在绑定关系,这是咱们自研硬件的原因之一吗? 这次ICRA 亮相的灵巧手有何特点?
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.
More from 雷峰网机器人
See more →
ICRA 2026最佳论文奖,千寻智能首席科学家、清华高阳团队FP3入围
The FP3 model, developed by Tsinghua University's Gao Yang and Spirit AI, is nominated for the ICRA 2026 Best Paper Award, showcasing a 1.3B parameter 3D strategy model that outperforms existing benchmarks by over 80% in unknown environments. Spirit AI also announced a record 15 billion RMB funding and its model Spirit v1.6 topped the RoboArena benchmark, marking significant advancements in embodied AI.

