“优化管线”决胜，“数据筛选”筑基：从ICRA 2026看世界模型的技术发展趋势

6/2/2026

·~6 min·6/2/2026·zh·6

Quick Answer

Quick Take

The AGIBOT WORLD CHALLENGE at ICRA 2026 highlights a shift in world model evaluation from visual realism to actionable decision-making, with the NeoVerse-Abot team achieving top results through an innovative offline optimization pipeline that enhances action control. This evolution emphasizes the integration of engineering optimization and cross-domain technology to meet complex embodied intelligence demands.

Key Points

NeoVerse-Abot team won first place by enhancing action control through offline optimization.
World model evaluation criteria are shifting to focus on decision-making capabilities.
PAI@IAII team improved data quality via a unique selection mechanism for training.
The competition provided a large-scale dataset to test real-world applicability of models.
Cross-domain integration is crucial for advancing embodied intelligence technologies.

📖 Reader Mode

~6 min read

原文作者：公众号“焉知机器人”

原文链接：https://mp.weixin.qq.com/s/JL-F9THdaw3HxbsPA9hNDA?scene=1&click_id=182

世界模型（World Model）作为具身智能领域的核心技术，正从“生成逼真场景”向“支撑智能决策”加速演进。AGIBOT WORLD CHALLENGE@ICRA 2026世界模型赛道汇聚了全球顶尖研究团队，其冠亚军团队的访谈不仅展现了当前技术的落地实践，更揭示了未来数年的发展方向。本文结合访谈内容与背景知识，深度解析世界模型技术的演进逻辑、核心突破与产业前景。

一、赛事背景：世界模型技术的“实战检验场”

AGIBOT WORLD CHALLENGE是国际具身智能领域极具影响力的赛事，其世界模型赛道以“真实机器人任务导向”为核心，区别于传统的纯视觉生成评测，重点考察模型在动作可控性、物理一致性和决策可用性上的综合能力。赛事提供的AGIBOT World超大规模数据集，为参赛团队提供了足量且真实的场景数据，有效排除非本质因素干扰，成为检验世界模型技术边界的“试金石”。

当前，世界模型已成为连接计算机视觉、机器人学与人工智能的核心枢纽——其核心是通过学习环境数据，建模环境动态变化与因果关系，为智能体提供可用于预测、规划和纠错的观测表征，是实现具身智能“理解世界、交互世界”的关键。此次参赛的冠亚军团队，分别代表了“学术前沿+工程落地”与“工业场景+技术深耕”两大研究方向，其技术路径与观点碰撞，为行业提供了宝贵参考，而访谈中焉知与团队的深度互动，更让这些技术观点变得具体可感。

“优化管线”决胜，“数据筛选”筑基：从ICRA 2026看世界模型的技术发展趋势

二、技术趋势一：评价标准转型——从“视觉逼真”到“决策可用”

访谈中，冠亚军团队均明确提出，世界模型的发展正经历一场核心评价标准的变革，这与当前全球该领域的研究共识高度契合。冠军NeoVerse-Abot团队（中科院自动化所NLPR与高德地图CV Lab联合团队）指出，2026年世界模型的主议题将从“生成合理视频”转向“支撑具身智能决策以及推理”。这一判断并非空穴来风——随着具身智能向实际应用落地，仅追求画面逼真已无法满足需求，模型必须理解物理规律和因果逻辑，才能真正帮助机器人完成规划、复杂推理及未见场景的策略泛化。

从背景来看，传统世界模型多聚焦于视觉生成，如基于NeRF、3DGS等技术的场景重建，但这类模型往往存在“重视觉、轻逻辑”的问题，难以应对机器人交互中的复杂物理约束。而当前行业的核心需求，正如亚军物理智能团队（PAI@IAII）所言，是让世界模型“提升具身策略学习”，即模型需能准确回答“机器人执行特定操作后世界如何变化”，避免生成脱离实际控制的“美观无效”内容。

这种评价标准的转型，正推动世界模型从“表面生成”向“深度理解”跨越，其核心指标已转变为动作可控性、物理一致性和决策可用性，这也是此次赛事评分的核心导向——NeoVerse-Abot团队的离线内外参优化管线，正是因大幅提升了动作控制确定性，才在action following指标中斩获第一。

三、技术趋势二：技术突破——工程化优化与跨领域融合并行

面对具身智能的复杂需求，单纯的算法创新已不足够，工程化优化与跨领域技术融合成为此次访谈中凸显的核心突破方向，这与当前世界模型的技术演进路径高度一致。

（一）工程化优化：破解落地核心瓶颈

NeoVerse-Abot团队在访谈中重点介绍的“离线内外参优化管线”，是工程化优化的典型实践。该管线通过整合机器人RGB视频信息、关节状态数据，结合现有视觉感知模型，对相机内参、外参及畸变参数进行联合后处理优化，解决了“智能体动作指令与视觉感知空间精准对齐”的核心难题——这一技术背后，离不开高德地图CV Lab在大规模视觉感知、空间理解领域的长期工程积累。针对这一核心技术突破，焉知结合赛事挑战与技术落地需求，向团队深入提问：“团队提到‘将智能体动作指令与视觉感知空间精准对齐’是本次参赛的关键挑战，能否具体说明你们设计的‘离线内外参优化管线’如何工作？比如管线具体整合了哪些数据、采用了哪些视觉感知模型，优化过程分为哪些步骤？另外，它在多大程度上提升了动作控制的确定性？有没有具体的赛事数据或指标来佐证这种提升效果？”

NeoVerse-Abot团队核心算法开发者李锐智结合实践细节，给出了细致回应：“我们搭建的离线内外参优化管线，核心是通过机器人采集的原始数据进行联合优化，具体工作流程分为三个关键步骤。首先，我们会提取机器人数据中原始包含的RGB视频信息，以及机器人整个关节的运动状态数据，这两类数据是优化的基础——因为在机器人组装和相机安装过程中，难免会存在GTP自给、相机支架安装、相机本身的安装误差，这些误差会直接影响相机内外参的准确性，进而导致机器人动作在图像中的空间投影出现偏差。其次，我们组合了现有的成熟视觉感知模型，对相机的内参、外参以及它们的畸变参数进行联合优化，这种优化属于后处理环节，相当于对采集到的原始数据进行‘校准’，让视频生成模型能更精准地感知当前机器人的实际内外参状态。最后，我们会将优化完成后的参数保存下来，全程应用于后续的模型训练和视频生成流程，形成完整的技术闭环。至于提升效果，从本次比赛的小分来看，我们的这条优化管线对action following（动作跟随）指标的贡献最为直接，我们在这一项小分中排名第一，而动作跟随能力也是其他各项指标的基础——只有确保机械臂在图像中的位置准确，才能更好地保证画面一致性和场景一致性，这也为我们最终夺冠奠定了基础。”

补充背景显示，高德地图CV Lab团队长期深耕三维重建与世界模型研究，其核心成员刘雨参与的两篇顶会论文（arXiv:2512.07527、arXiv:2510.09997），分别聚焦卫星图像的生成式城市摄影测量与3D高斯 splatting的连续LOD（细节层次）技术，前者提出的2.5D高度图建模与可微分渲染技术，后者提出的CLoD-GS框架，均体现了“工程化落地导向”的技术思路——这些积累被成功迁移到机器人世界模型训练中，解决了数据处理、场景建模中的工程化难题。

与冠军团队不同，亚军PAI@IAII团队则通过“独特的数据筛选机制”破解了训练数据瓶颈，其设计逻辑遵循“先保证场景多样性，再确保数据质量”的原则，重点筛选动作与画面完全对应的样本，同时保留长尾场景与各类演化数据，这与工业场景中“数据稀缺但要求鲁棒性”的需求高度匹配。针对这一筛选机制，焉知在访谈中进一步深入追问，结合赛事数据特点和工业场景需求提出具体问题：“团队提到通过‘独特的筛选机制’解决了数据挑战，能否详细介绍这一机制的设计逻辑与具体评判标准？比如在筛选过程中，如何量化判断动作与画面的对应性？另外，在面向工业场景时，数据清洗与构建的侧重点与通用机器人场景有何不同？工业场景中常见的长尾数据、异常数据，你们会如何处理？”对此，PAI@IAII团队结合自身实践给出了细致回应：“我们的筛选机制核心有两个要点，优先保证场景的多样性，再严格把控数据质量，这是我们设计的核心逻辑。具体到评判标准，对于action condition的模型，我们会通过多维度校验确保动作与画面完全对应，比如将机器人关节运动数据与视频帧中的动作轨迹进行逐帧比对，计算两者的偏差值，偏差低于设定阈值的样本才会被保留，同时剔除模糊、卡顿、动作断裂的无效样本。至于工业场景与通用机器人场景的数据清洗差异，目前我们的世界模型尚未完全落地工业场景，但结合我们对工业场景的研究和预判，工业场景虽相对固定，却也存在不少长尾场景和异常数据，比如焊接过程中的焊缝偏移、机械臂操作中的突发故障等。对于世界模型这种建模next state（下一状态）的模型而言，所有与世界演变相关的数据都有价值，不能因为是所谓‘失败数据’就丢弃，我们会将这些数据单独标注、分类处理，通过增强训练让模型在相对固定的工业场景中达到更鲁棒的性能，更好地应对实际操作中的各类突发情况。”

（二）跨领域融合：拓宽技术边界

访谈中最具前瞻性的观点，是NeoVerse-Abot团队提出的“生成理解一体化”路径——将policy（策略）视为一种理解，推动世界模型与决策模型的深度耦合。这一思路与当前国际前沿研究高度契合，如谷歌DeepMind的Vision Banana论文所展现的“生成与语义理解同步”，但该团队更强调“动作条件驱动”，区别于文本引导的通用生成模型。针对这一前瞻性观点，焉知进一步追问技术落地细节：“团队认为未来会走向‘生成理解一体化’，并将policy视为一种理解。在当前团队的模型架构中，你们是如何将视频生成模型与决策策略进行耦合或联合训练的？具体采用了哪些技术思路？另外，当前大语言模型在高层任务分解中应用广泛，你们是否尝试引入大语言模型，来辅助世界模型进行高层任务分解？如果有相关规划，具体会如何落地？”

NeoVerse-Abot团队核心成员李俊彦结合团队研究实践回应道：“首先要明确的是，我们当前的世界模型与单纯的决策模型（policy模型）有所不同，但两者的核心目标是一致的——无论是我们现在做的视频生成类世界模型，还是当前热门的VLA（视觉语言动作模型）、世界动作模型（WAM），核心都不是简单地将观测映射成语言、动作或视频，而是从当前的观测、机器人状态，以及相关的语义动作中，生成真正影响操作结果的观测表征。这种表征包含了物体的可操作性、接触关系、空间约束、机器人本体的动作可达性、潜在风险，以及动作执行后可能引发的状态变化，这也是‘生成理解一体化’的核心内涵——生成的过程本身就是模型理解世界的过程，而policy（策略）本质上就是这种理解的具体体现。

至于视频生成模型与决策策略的耦合，其实VLA、世界模型、世界动作模型这三种模型，已经在朝着这个方向推进：VLA更强调指令与观测的动作选择，世界模型更强调预测环境的演化，而世界动作模型则是直接将世界模型的动作生成能力与动作条件绑定，实现了生成与决策的耦合。我们当前的架构中，也在逐步推进这种耦合，重点是让世界模型生成的环境预测结果，能够直接为决策策略提供支撑，让决策更具针对性。

关于引入大语言模型进行高层任务分解，这确实是当前领域的一个重要方向，也是我们团队正在考虑的思路——利用大语言模型的语义驱动能力，与我们的世界模型进行耦合，实现高层任务的拆解，让机器人能更好地理解复杂任务需求。不过在本次比赛中，我们并没有进行这方面的尝试，因为本次比赛的核心任务是实现‘动作/状态到视频’的预测，重点聚焦于动作跟随和场景一致性，暂未涉及高层任务分解的相关需求，后续我们会结合更复杂的机器人任务，推进大语言模型与世界模型的融合落地。”

补充背景显示，NeoVerse-Abot团队的核心负责人范略（中科院自动化所助理研究员），长期聚焦世界模型、具身智能与自动驾驶的交叉研究，其2026年牵头的NeoVerse项目（CVPR 2026收录），正是通过单目视频增强4D世界模型，体现了“生成理解一体化”的技术思路。范略团队的研究还显示，自动驾驶与具身智能在世界模型应用上存在逻辑共通性——均需通过环境推演实现策略反馈，这为跨领域技术迁移提供了可能。结合这一背景，焉知围绕高德地图的技术赋能，向团队提出针对性问题：“高德地图在视觉感知与空间数据设施上有深厚的工程积累，这些能力如何具体赋能本次参赛的世界模型？比如在场景理解、三维空间先验构建，或者数据引擎搭建上，高德的积累具体体现在哪些方面？有没有可分享的实践经验？另外，高德的地图数据是否直接用于世界模型的训练？”

李锐智结合自身在高德地图的实习经历，详细回应了这一问题：“高德地图的核心赋能，并非将地图数据直接用于世界模型的训练，而是其长期积累的空间智能感知、理解能力，以及工程化实践经验，这些都能直接迁移到我们的机器人世界模型训练中。高德地图的业务本身就属于空间智能的重要组成部分，长期面对真实世界的大规模异构、长尾数据——不同地点、不同视角、不同天气、不同传感器的数据，都需要进行高效组织、校验和更新，这种处理大规模复杂数据的工程经验，与我们当前机器人数据的准备、训练需求高度契合。

具体来说，在场景理解和三维空间先验构建上，高德CV Lab长期深耕大规模视觉感知、空间理解与场景建模，形成了业界领先的视觉技术工程体系，他们在三维重建、空间特征提取等方面的技术积累，能帮助我们更好地构建机器人场景的三维空间先验，提升模型对场景的理解能力。在数据引擎构建上，高德在数据筛选、校验、更新等方面的工程化流程，也为我们搭建机器人数据引擎提供了重要参考，帮助我们解决了机器人数据视角多样、时域长、标注成本高的难题。可以说，高德地图的工程积累，为我们的世界模型提供了坚实的技术支撑，让我们能更好地应对比赛中的数据和场景挑战。”

针对PAI@IAII团队此前提出的“本次比赛单视角挑战过于依赖基模能力”这一观点，焉知结合当前世界模型的技术痛点进一步追问，聚焦多视角、多模态融合的实际应用的细节：“团队认为本次比赛‘单视角挑战过于依赖基模能力’，这一观点非常有针对性。如果未来比赛扩展为多视角或引入多模态信息（比如传感器数据、关节角数据、语音指令等），你们会在模型设计上做哪些具体改进？这些改进方案是否已有相关技术储备？能否结合具体的技术思路，说明多视角、多模态信息如何弥补单视角的不足？”PAI@IAII团队结合自身技术积累给出了明确且详细的回应：“我们已有相关技术储备，具体改进思路主要分为两个核心环节。首先，在模型预训练阶段，我们会利用多视角数据进行训练，通过多视角图像的特征融合，让模型提前学习到场景的3D空间结构、物体的深度关系等3D先验信息，打破单视角带来的深度模糊、遮挡等局限；其次，在微调阶段，我们会结合单视角数据，针对性优化模型的特征提取能力，让模型既能依托预训练阶段的3D先验知识，又能适配单视角的输入场景，实现‘多视角预训练+单视角微调’的高效结合。这种改进方案的核心优势的是，多视角数据能为模型注入更丰富的空间信息，解决单视角下难以判断物体深度、遮挡区域状态等问题，而多模态信息的引入，比如传感器数据、关节角数据，能让模型更精准地捕捉机器人动作与环境变化的关联，进一步提升物理建模的准确性。目前，我们团队在多视角3D重建、多模态特征融合方面已有相关研究积累，也完成了初步的实验验证，证明这种改进方案能有效提升模型的泛化能力和物理一致性。”这一方案也成为跨领域融合的典型实践——通过多视角数据注入3D先验知识，增强模型在遮挡、深度感知等场景的泛化能力，与3D高斯 splatting、NeRF等三维重建技术的发展趋势相呼应，体现了“视觉建模与具身智能”的深度融合。

四、技术趋势三：应用落地——从通用场景到工业深耕

世界模型的技术演进，最终指向实际应用落地。此次访谈中，两大团队均明确了“场景化深耕”的方向，其中工业具身智能成为重点布局领域。

PAI@IAII团队由徐凯研究员（中科院工业人工智能研究所）全职带领，其研究方向聚焦工业具身智能、工业数字孪生，长期深耕重工、船舶、汽车等智能制造领域。访谈中，团队指出，世界模型在工业场景中的核心价值，除了预测，更在于建模不确定性——如焊接场景中，通过模型预测焊接枪移动对焊缝厚度、长度的影响，为决策优化提供先验支持，这与当前工业数字孪生“虚实融合、精准管控”的需求高度契合。围绕这一应用方向，焉知结合工业场景的实际落地需求，进一步追问细节：“在将世界模型应用于实际机器人策略学习时，除了提供预测，你们认为世界模型还能在哪些具体环节（如仿真训练、安全验证、人机协作）发挥关键作用？能否结合工业场景的实例，说明世界模型在这些环节中的具体应用方式和价值？”对此，PAI@IAII团队结合工业场景的实际需求，给出了具体且贴合实践的回应：“世界模型的一个重要应用方向就是作为仿真器（world model as a simulator），这一点在工业场景中体现得尤为明显。在工业场景中，很多操作过程存在不确定性，且部分操作成本高、风险大，比如船舶焊接、重工装备装配等场景，焊接枪的移动方式会直接影响焊缝的厚度、长度、平整度等结果，这些结果往往需要焊接完成后通过专业设备测量才能得知，一旦出现偏差，不仅会造成材料浪费，还可能影响产品质量，甚至带来安全隐患。而世界模型能够精准建模这种不确定性，通过输入当前的设备状态、动作指令等信息，预测下一个状态的演变，比如预测焊接枪移动速度、角度对焊缝的具体影响，提前预判可能出现的偏差。除此之外，世界模型在仿真训练和安全验证环节也能发挥关键作用。在仿真训练中，我们可以利用世界模型构建高度逼真的工业场景，让机器人在虚拟环境中进行大量训练，减少真实场景训练的成本和风险，同时快速优化策略；在安全验证中，世界模型可以模拟各类极端场景、故障场景，比如机械臂卡顿、物料偏移等，测试机器人策略的安全性和鲁棒性，提前排查安全隐患。我们认为，在工业场景落地世界模型，就能针对这些不确定性提供先验预测，再通过对预测结果的筛选和优化，提升焊接、装配等工业操作的效果和安全性，这是我们目前看到的重要应用前景。”

补充背景显示，徐凯研究员在国际上较早开展数据驱动三维感知、建模与交互工作，发表100余篇TOP期刊论文，其团队的研究重点的是“机理增强的具身交互理论”，这与世界模型“物理规律建模”的核心需求高度匹配，也预示着工业场景将成为世界模型落地的重要突破口。

NeoVerse-Abot团队则依托高德地图的工程积累，聚焦机器人开放环境理解，其技术路径体现了“通用场景与行业场景结合”的思路——将地图业务中应对大规模异构、长尾数据的工程经验，迁移到机器人数据准备与训练中，解决了机器人场景中“视角多样、数据复杂”的难题，为服务机器人、自主移动机器人等场景的落地提供了技术支撑。

五、未来展望：瓶颈突破与方向聚焦

结合访谈内容与背景知识，世界模型未来的发展将聚焦于两大核心瓶颈的突破，同时明确三大研究方向。

核心瓶颈方面，一是数据稀缺性——高质量机器人操作数据远少于互联网视频数据，且采集难度高；二是物理规律建模不足——现有模型缺乏对几何关系、摩擦力、刚体/软体交互等物理常识的显式建模，易出现违反物理规律的生成结果。这两大瓶颈也是中美两国在该领域的共性挑战，当前双方处于“你追我赶”的状态，无显著代差。

未来研究方向则很明确：一是持续推进“生成理解一体化”，将世界模型与策略模型深度耦合，降低推理延迟，满足机器人实时控制需求；二是强化多视角、多模态融合，通过多视角预训练注入3D先验，提升模型泛化能力；三是加速工业场景落地，推动评测标准从“表面正确性”转向“物理正确性”，让世界模型真正服务于工业决策优化。

此次访谈，为我们呈现了世界模型技术从“学术探索”向“落地实践”转型的路径。从评价标准的变革，到工程化优化与跨领域融合的突破，再到工业场景的深耕，世界模型正逐步摆脱“纯视觉生成”的局限，成为具身智能实现“理解世界、交互世界”的核心支撑。

以NeoVerse-Abot、PAI@IAII为代表的中国团队，正通过“学术前沿+工程落地”“工业深耕+技术创新”的路径，在世界模型领域实现突破——范略团队的跨领域研究、徐凯团队的工业落地探索，以及高德地图的工程化积累，均体现了中国在该领域的综合实力。

雷峰网(公众号：雷峰网)

— Originally published at leiphone.com

Continue reading on leiphone.com

Want this in your inbox every morning?

Daily brief at your local 8am — bilingual EN/中文, free.

Subscribe — it's free

More from 雷峰网机器人

See more →

给机器人造一座「数据工厂」，小米 Robotics-U0 如何破解具身智能最难的一道题？

雷峰网机器人

1d ago

FeaturedOriginal

给机器人造一座「数据工厂」，小米 Robotics-U0 如何破解具身智能最难的一道题？

AI Summary

Xiaomi's Robotics-U0 integrates multiple generative tasks into a unified model, enhancing robotic training data generation by 82.9 times, achieving top scores in WorldArena benchmarks, and improving task completion rates by 26.3% in challenging environments.

#Inference #Robotics #AI Startup