
“优化管线”决胜,“数据筛选”筑基:从ICRA 2026看世界模型的技术发展趋势
Quick Take
The AGIBOT WORLD CHALLENGE at ICRA 2026 highlights a shift in world model evaluation from visual realism to actionable decision-making, with the NeoVerse-Abot team achieving top results through an innovative offline optimization pipeline that enhances action control. This evolution emphasizes the integration of engineering optimization and cross-domain technology to meet complex embodied intelligence demands.
Key Points
- NeoVerse-Abot team won first place by enhancing action control through offline optimization.
- World model evaluation criteria are shifting to focus on decision-making capabilities.
- PAI@IAII team improved data quality via a unique selection mechanism for training.
- The competition provided a large-scale dataset to test real-world applicability of models.
- Cross-domain integration is crucial for advancing embodied intelligence technologies.
Article Content
From source RSS / original summary原文作者:公众号“焉知机器人”原文链接:https://mp. weixin. qq. com/s/JL-F9THdaw3HxbsPA9hNDA? scene=1&click_id=182世界模型(World Model)作为具身智能领域的核心技术,正从“生成逼真场景”向“支撑智能决策”加速演进。 AGIBOT WORLD CHALLENGE@ICRA 2026世界模型赛道汇聚了全球顶尖研究团队,其冠亚军团队的访谈不仅展现了当前技术的落地实践,更揭示了未来数年的发展方向。 本文结合访谈内容与背景知识,深度解析世界模型技术的演进逻辑、核心突破与产业前景。 一、赛事背景:世界模型技术的“实战检验场”AGIBOT WORLD CHALLENGE是国际具身智能领域极具影响力的赛事,其世界模型赛道以“真实机器人任务导向”为核心,区别于传统的纯视觉生成评测,重点考察模型在动作可控性、物理一致性和决策可用性上的综合能力。 赛事提供的AGIBOT World超大规模数据集,为参赛团队提供了足量且真实的场景数据,有效排除非本质因素干扰,成为检验世界模型技术边界的“试金石”。
当前,世界模型已成为连接计算机视觉、机器人学与人工智能的核心枢纽——其核心是通过学习环境数据,建模环境动态变化与因果关系,为智能体提供可用于预测、规划和纠错的观测表征,是实现具身智能“理解世界、交互世界”的关键。 此次参赛的冠亚军团队,分别代表了“学术前沿+工程落地”与“工业场景+技术深耕”两大研究方向,其技术路径与观点碰撞,为行业提供了宝贵参考,而访谈中焉知与团队的深度互动,更让这些技术观点变得具体可感。 二、技术趋势一:评价标准转型——从“视觉逼真”到“决策可用”访谈中,冠亚军团队均明确提出,世界模型的发展正经历一场核心评价标准的变革,这与当前全球该领域的研究共识高度契合。 冠军NeoVerse-Abot团队(中科院自动化所NLPR与高德地图CV Lab联合团队)指出,2026年世界模型的主议题将从“生成合理视频”转向“支撑具身智能决策以及推理”。 这一判断并非空穴来风——随着具身智能向实际应用落地,仅追求画面逼真已无法满足需求,模型必须理解物理规律和因果逻辑,才能真正帮助机器人完成规划、复杂推理及未见场景的策略泛化。
从背景来看,传统世界模型多聚焦于视觉生成,如基于NeRF、3DGS等技术的场景重建,但这类模型往往存在“重视觉、轻逻辑”的问题,难以应对机器人交互中的复杂物理约束。 而当前行业的核心需求,正如亚军物理智能团队(PAI@IAII)所言,是让世界模型“提升具身策略学习”,即模型需能准确回答“机器人执行特定操作后世界如何变化”,避免生成脱离实际控制的“美观无效”内容。 这种评价标准的转型,正推动世界模型从“表面生成”向“深度理解”跨越,其核心指标已转变为动作可控性、物理一致性和决策可用性,这也是此次赛事评分的核心导向——NeoVerse-Abot团队的离线内外参优化管线,正是因大幅提升了动作控制确定性,才在action following指标中斩获第一。 三、技术趋势二:技术突破——工程化优化与跨领域融合并行面对具身智能的复杂需求,单纯的算法创新已不足够,工程化优化与跨领域技术融合成为此次访谈中凸显的核心突破方向,这与当前世界模型的技术演进路径高度一致。 (一)工程化优化:破解落地核心瓶颈NeoVerse-Abot团队在访谈中重点介绍的“离线内外参优化管线”,是工程化优化的典型实践。
该管线通过整合机器人RGB视频信息、关节状态数据,结合现有视觉感知模型,对相机内参、外参及畸变参数进行联合后处理优化,解决了“智能体动作指令与视觉感知空间精准对齐”的核心难题——这一技术背后,离不开高德地图CV Lab在大规模视觉感知、空间理解领域的长期工程积累。 针对这一核心技术突破,焉知结合赛事挑战与技术落地需求,向团队深入提问:“团队提到‘将智能体动作指令与视觉感知空间精准对齐’是本次参赛的关键挑战,能否具体说明你们设计的‘离线内外参优化管线’如何工作? 比如管线具体整合了哪些数据、采用了哪些视觉感知模型,优化过程分为哪些步骤? 另外,它在多大程度上提升了动作控制的确定性? 有没有具体的赛事数据或指标来佐证这种提升效果? ”NeoVerse-Abot团队核心算法开发者李锐智结合实践细节,给出了细致回应:“我们搭建的离线内外参优化管线,核心是通过机器人采集的原始数据进行联合优化,具体工作流程分为三个关键步骤。
首先,我们会提取机器人数据中原始包含的RGB视频信息,以及机器人整个关节的运动状态数据,这两类数据是优化的基础——因为在机器人组装和相机安装过程中,难免会存在GTP自给、相机支架安装、相机本身的安装误差,这些误差会直接影响相机内外参的准确性,进而导致机器人动作在图像中的空间投影出现偏差。 其次,我们组合了现有的成熟视觉感知模型,对相机的内参、外参以及它们的畸变参数进行联合优化,这种优化属于后处理环节,相当于对采集到的原始数据进行‘校准’,让视频生成模型能更精准地感知当前机器人的实际内外参状态。 最后,我们会将优化完成后的参数保存下来,全程应用于后续的模型训练和视频生成流程,形成完整的技术闭环。 至于提升效果,从本次比赛的小分来看,我们的这条优化管线对action following(动作跟随)指标的贡献最为直接,我们在这一项小分中排名第一,而动作跟随能力也是其他各项指标的基础——只有确保机械臂在图像中的位置准确,才能更好地保证画面一致性和场景一致性,这也为我们最终夺冠奠定了基础。 ”补充背景显示,高德地图CV Lab团队长期深耕三维重建与世界模型研究,其核心成员刘雨参与的两篇顶会论文(arXiv:2512.
07527、arXiv:2510. 09997),分别聚焦卫星图像的生成式城市摄影测量与3D高斯 splatting的连续LOD(细节层次)技术,前者提出的2. 5D高度图建模与可微分渲染技术,后者提出的CLoD-GS框架,均体现了“工程化落地导向”的技术思路——这些积累被成功迁移到机器人世界模型训练中,解决了数据处理、场景建模中的工程化难题。 与冠军团队不同,亚军PAI@IAII团队则通过“独特的数据筛选机制”破解了训练数据瓶颈,其设计逻辑遵循“先保证场景多样性,再确保数据质量”的原则,重点筛选动作与画面完全对应的样本,同时保留长尾场景与各类演化数据,这与工业场景中“数据稀缺但要求鲁棒性”的需求高度匹配。 针对这一筛选机制,焉知在访谈中进一步深入追问,结合赛事数据特点和工业场景需求提出具体问题:“团队提到通过‘独特的筛选机制’解决了数据挑战,能否详细介绍这一机制的设计逻辑与具体评判标准? 比如在筛选过程中,如何量化判断动作与画面的对应性? 另外,在面向工业场景时,数据清洗与构建的侧重点与通用机器人场景有何不同? 工业场景中常见的长尾数据、异常数据,你们会如何处理?
”对此,PAI@IAII团队结合自身实践给出了细致回应:“我们的筛选机制核心有两个要点,优先保证场景的多样性,再严格把控数据质量,这是我们设计的核心逻辑。 具体到评判标准,对于action condition的模型,我们会通过多维度校验确保动作与画面完全对应,比如将机器人关节运动数据与视频帧中的动作轨迹进行逐帧比对,计算两者的偏差值,偏差低于设定阈值的样本才会被保留,同时剔除模糊、卡顿、动作断裂的无效样本。 至于工业场景与通用机器人场景的数据清洗差异,目前我们的世界模型尚未完全落地工业场景,但结合我们对工业场景的研究和预判,工业场景虽相对固定,却也存在不少长尾场景和异常数据,比如焊接过程中的焊缝偏移、机械臂操作中的突发故障等。 对于世界模型这种建模next state(下一状态)的模型而言,所有与世界演变相关的数据都有价值,不能因为是所谓‘失败数据’就丢弃,我们会将这些数据单独标注、分类处理,通过增强训练让模型在相对固定的工业场景中达到更鲁棒的性能,更好地应对实际操作中的各类突发情况。
”(二)跨领域融合:拓宽技术边界访谈中最具前瞻性的观点,是NeoVerse-Abot团队提出的“生成理解一体化”路径——将policy(策略)视为一种理解,推动世界模型与决策模型的深度耦合。 这一思路与当前国际前沿研究高度契合,如谷歌DeepMind的Vision Banana论文所展现的“生成与语义理解同步”,但该团队更强调“动作条件驱动”,区别于文本引导的通用生成模型。 针对这一前瞻性观点,焉知进一步追问技术落地细节:“团队认为未来会走向‘生成理解一体化’,并将policy视为一种理解。 在当前团队的模型架构中,你们是如何将视频生成模型与决策策略进行耦合或联合训练的? 具体采用了哪些技术思路? 另外,当前大语言模型在高层任务分解中应用广泛,你们是否尝试引入大语言模型,来辅助世界模型进行高层任务分解? 如果有相关规划,具体会如何落地?
”NeoVerse-Abot团队核心成员李俊彦结合团队研究实践回应道:“首先要明确的是,我们当前的世界模型与单纯的决策模型(policy模型)有所不同,但两者的核心目标是一致的——无论是我们现在做的视频生成类世界模型,还是当前热门的VLA(视觉语言动作模型)、世界动作模型(WAM),核心都不是简单地将观测映射成语言、动作或视频,而是从当前的观测、机器人状态,以及相关的语义动作中,生成真正影响操作结果的观测表征。 这种表征包含了物体的可操作性、接触关系、空间约束、机器人本体的动作可达性、潜在风险,以及动作执行后可能引发的状态变化,这也是‘生成理解一体化’的核心内涵——生成的过程本身就是模型理解世界的过程,而policy(策略)本质上就是这种理解的具体体现。 至于视频生成模型与决策策略的耦合,其实VLA、世界模型、世界动作模型这三种模型,已经在朝着这个方向推进:VLA更强调指令与观测的动作选择,世界模型更强调预测环境的演化,而世界动作模型则是直接将世界模型的动作生成能力与动作条件绑定,实现了生成与决策的耦合。
我们当前的架构中,也在逐步推进这种耦合,重点是让世界模型生成的环境预测结果,能够直接为决策策略提供支撑,让决策更具针对性。 关于引入大语言模型进行高层任务分解,这确实是当前领域的一个重要方向,也是我们团队正在考虑的思路——利用大语言模型的语义驱动能力,与我们的世界模型进行耦合,实现高层任务的拆解,让机器人能更好地理解复杂任务需求。 不过在本次比赛中,我们并没有进行这方面的尝试,因为本次比赛的核心任务是实现‘动作/状态到视频’的预测,重点聚焦于动作跟随和场景一致性,暂未涉及高层任务分解的相关需求,后续我们会结合更复杂的机器人任务,推进大语言模型与世界模型的融合落地。 ”补充背景显示,NeoVerse-Abot团队的核心负责人范略(中科院自动化所助理研究员),长期聚焦世界模型、具身智能与自动驾驶的交叉研究,其2026年牵头的NeoVerse项目(CVPR 2026收录),正是通过单目视频增强4D世界模型,体现了“生成理解一体化”的技术思路。 范略团队的研究还显示,自动驾驶与具身智能在世界模型应用上存在逻辑共通性——均需通过环境推演实现策略反馈,这为跨领域技术迁移提供了可能。
结合这一背景,焉知围绕高德地图的技术赋能,向团队提出针对性问题:“高德地图在视觉感知与空间数据设施上有深厚的工程积累,这些能力如何具体赋能本次参赛的世界模型? 比如在场景理解、三维空间先验构建,或者数据引擎搭建上,高德的积累具体体现在哪些方面? 有没有可分享的实践经验? 另外,高德的地图数据是否直接用于世界模型的训练? ”李锐智结合自身在高德地图的实习经历,详细回应了这一问题:“高德地图的核心赋能,并非将地图数据直接用于世界模型的训练,而是其长期积累的空间智能感知、理解能力,以及工程化实践经验,这些都能直接迁移到我们的机器人世界模型训练中。 高德地图的业务本身就属于空间智能的重要组成部分,长期面对真实世界的大规模异构、长尾数据——不同地点、不同视角、不同天气、不同传感器的数据,都需要进行高效组织、校验和更新,这种处理大规模复杂数据的工程经验,与我们当前机器人数据的准备、训练需求高度契合。
具体来说,在场景理解和三维空间先验构建上,高德CV Lab长期深耕大规模视觉感知、空间理解与场景建模,形成了业界领先的视觉技术工程体系,他们在三维重建、空间特征提取等方面的技术积累,能帮助我们更好地构建机器人场景的三维空间先验,提升模型对场景的理解能力。 在数据引擎构建上,高德在数据筛选、校验、更新等方面的工程化流程,也为我们搭建机器人数据引擎提供了重要参考,帮助我们解决了机器人数据视角多样、时域长、标注成本高的难题。 可以说,高德地图的工程积累,为我们的世界模型提供了坚实的技术支撑,让我们能更好地应对比赛中的数据和场景挑战。 ”针对PAI@IAII团队此前提出的“本次比赛单视角挑战过于依赖基模能力”这一观点,焉知结合当前世界模型的技术痛点进一步追问,聚焦多视角、多模态融合的实际应用的细节:“团队认为本次比赛‘单视角挑战过于依赖基模能力’,这一观点非常有针对性。 如果未来比赛扩展为多视角或引入多模态信息(比如传感器数据、关节角数据、语音指令等),你们会在模型设计上做哪些具体改进? 这些改进方案是否已有相关技术储备? 能否结合具体的技术思路,说明多视角、多模态信息如何弥补单视角的不足?
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.
More from 雷峰网机器人
See more →
ICRA 2026 收录成果:Agentic Fast-Slow Planning打通大模型推理与实时控制,让具身智能更稳、更快
The Agentic Fast-Slow Planning (AFSP) framework bridges large model reasoning and real-time control, enhancing embodied intelligence efficiency. In CARLA simulations, AFSP outperformed pure MPC and A*-guided MPC, reducing maximum lateral deviation by 45% and task completion time by over 12%. This approach stabilizes high-level semantic decisions for autonomous driving, ensuring faster, safer, and more robust performance.


