ICRA 2026 | 深度强化学习团队工作速览

6/1/2026

·~5 min·6/1/2026·zh·3

Quick Answer

The ICRA 2026 report highlights advancements in end-to-end autonomous driving, emphasizing the importance of data scaling laws, real-time planning with ConsistencyPlanner, and preference-based optimization with TakeAD, showcasing significant improvements in safety and performance metrics across various benchmarks.

Quick Take

Key Points

End-to-end autonomous driving relies on large-scale data for effective model training.
ConsistencyPlanner improves real-time planning efficiency and safety in dynamic traffic scenarios.
TakeAD enhances closed-loop performance using expert takeover data for better decision-making.
Mimir introduces uncertainty modeling for robust trajectory generation in complex environments.
CL3R boosts robotic manipulation by integrating 3D perception with semantic understanding.

Article Content

From source RSS / original summary

原文作者：公众号“深度强化学习 CASIA”原文链接：https://mp. weixin. qq. com/s/amDj0sH1O1fr1OalrJr9Qw01. Data Scaling Laws for Imitation Learning-Based End-to-End Autonomous Driving作者：Yupeng Zheng，Pengxuan Yang，Zhongpu Xia，Qichao Zhang，Yuhang Zheng，Bu Jin，Teng Zhang，Ben Lu，Chao Han，Xianpeng Lang，Xiangyuan Lan，Dongbin Zhao端到端自动驾驶因其强大的可扩展性，正在成为自动驾驶领域的重要发展方向。然而，现有方法始终受限于真实驾驶数据规模不足，导致人们对端到端自动驾驶“数据 scaling law（规模规律）”的理解仍然十分有限。为深入探索这一问题，我们构建了大规模真实驾驶数据集，并系统研究了模仿学习范式下端到端自动驾驶模型的数据规模规律。该工作累计采集了覆盖23类驾驶场景的约400万条驾驶演示数据，总时长超过3万小时，是目前少有的大规模系统性研究之一。

同时，我们在1400段复杂驾驶任务中进行了严格评测，包括开放环（open-loop）与闭环仿真（closed-loop）两类测试，全面分析数据规模、数据分布与模型性能之间的关系。实验结果揭示了多个重要发现：首先，模型性能与数据量之间在开放环评测中呈现明显的幂律（power-law）关系，但这一规律在更贴近真实驾驶的闭环评测中并不成立。这意味着，仅仅扩大数据规模并不足以解决自动驾驶问题，数据分布质量与场景覆盖度同样至关重要。其次，少量长尾场景数据的增加，就能够显著提升模型在对应复杂场景中的表现。更进一步，合理的数据扩展策略还能使模型具备对新场景与新动作组合的泛化能力，实现真正意义上的组合泛化（compositional generalization）。该研究首次系统揭示了端到端自动驾驶中的数据 scaling law，为未来构建更安全、更泛化、更可靠的自动驾驶系统提供了重要参考，也进一步说明：自动驾驶的核心竞争力，正在从“模型设计”逐步转向“高质量数据与场景覆盖能力”。 02.

ConsistencyPlanner: Real-time Planning with Fast-Sampling Consistency Models作者：Qichao Zhang，Xing Fang，Jiaqi Fang，Zhenwen Cai，Jie Ling，Qiankun Yu，Dongbin Zhao在复杂真实交通环境中，实现安全、高效的闭环规划，一直是自动驾驶系统面临的核心挑战。传统基于规则的方法虽然具备较强可解释性，但依赖人工设计的启发式规则，难以适应动态、多变的真实交通场景；而近年来快速发展的学习式方法，虽然具备更强的数据驱动能力，却往往难以兼顾“多样化驾驶行为建模”与“实时规划效率”，容易出现犹豫、不稳定甚至危险的决策行为。针对这一问题，我们提出了全新的实时自动驾驶规划框架 ConsistencyPlanner。该方法基于近年来兴起的 Consistency Model，实现了兼具多模态行为生成能力与实时性的闭环规划，为复杂动态交通场景下的自动驾驶提供了新的解决方案。 ConsistencyPlanner包含两项关键创新。

首先，我们提出了基于快速采样一致性模型（fast-sampling consistency model）的多模态轨迹生成机制，能够在极短时间内高效生成多种合理未来轨迹，实现对复杂驾驶行为的实时探索，突破了传统生成式规划方法需要多步迭代采样、推理速度慢的问题。其次，我们设计了注意力增强的异构特征融合解码器，将场景特征（scene feature）与动作 token 等不同类型输入进行动态融合，从而提升系统对复杂环境的理解与规划鲁棒性。在Waymax仿真平台上的大量实验表明，ConsistencyPlanner在安全性指标上显著优于现有方法，尤其在复杂动态场景中展现出更稳定、更安全的规划能力。该工作展示了生成式模型在自动驾驶实时规划中的巨大潜力，也为下一代兼具实时性与多样性决策能力的自动驾驶系统提供了新的研究方向。 03.

TakeAD: Preference-Based Post-Optimization for End-to-End Autonomous Driving With Expert Takeover Data（RA-L）作者：Deqing Liu，Yinfeng Gao，Deheng Qian，Qichao Zhang，Xiaoqing Ye，Junyu Han，Yupeng Zheng，Xueyi Liu，Zhongpu Xia，Dawei Ding，Yifeng Pan，Dongbin Zhao当前主流的端到端自动驾驶方法大多基于模仿学习（Imitation Learning, IL），但始终面临一个关键难题：训练阶段采用开放环（open-loop）学习，而真实部署时却需要在闭环（closed-loop）环境中连续决策。这种训练与部署之间的不一致，往往会导致系统在复杂场景下出现失误，进而触发人工接管（takeover）甚至系统退出（disengagement）。然而，这些真实接管场景中蕴含的大量专家纠正行为，实际上是极具价值的数据资源。

如何有效利用这些“系统失败后的专家干预数据”，进一步提升自动驾驶策略能力，仍然是一个尚未被充分探索的重要问题。针对这一挑战，我们提出了全新的偏好驱动后优化框架 TakeAD。该方法能够利用自动驾驶系统中的接管数据，对已有模仿学习策略进行后训练优化，从而显著提升闭环驾驶性能。 TakeAD首先设计了一套高效的专家接管数据采集流程，模拟真实自动驾驶系统中的人类接管机制，自动收集系统失效状态下的专家纠正行为。在此基础上，框架进一步结合了两种关键学习机制：一方面，通过迭代式 Dataset Aggregation（DAgger）让模型直接学习专家在危险状态下的恢复行为，使策略具备处理 disengagement 状态的基础能力；另一方面，引入（DPO）进行偏好对齐，使模型不仅“会模仿”，还能逐渐学习更符合专家驾驶偏好的决策方式。通过多轮迭代训练，TakeAD能够持续增强系统在危险状态下的恢复能力，有效缓解端到端自动驾驶中长期存在的 open-loop gap 问题。

在闭环 Bench2Drive 基准测试中的实验结果表明，相较于传统纯模仿学习方法，TakeAD显著提升了自动驾驶系统在复杂场景中的稳定性与安全性。该工作也首次展示了“专家接管数据 + 偏好优化”在自动驾驶后训练中的巨大潜力，为端到端自动驾驶系统的持续学习与安全增强提供了新的方向。 04. Mimir: Hierarchical Goal-Driven Diffusion with Uncertainty Propagation for End-to-End Autonomous Driving（RA-L）作者：Zebin Xing，Yupeng Zheng，Qichao Zhang，Zhixing Ding，Pengxuan Yang，Songen Gu，Zhongpu Xia，Dongbin Zhao代码：https://github. com/ZebinX/Mimir-Uncertainty-Driving端到端自动驾驶正在成为自动驾驶领域的重要发展方向。近年来，大量研究开始通过引入高层语义引导（high-level guidance）来辅助底层轨迹规划，从而提升车辆在复杂场景中的决策能力。

然而，现有方法仍存在两个关键瓶颈：一方面，高层引导信息本身可能存在误差，导致规划结果不稳定；另一方面，复杂引导模块带来的高计算开销，也严重限制了系统的实时性与实际部署能力。针对这些问题，我们提出了全新的分层双系统自动驾驶框架 Mimir，实现了兼具鲁棒性与高效率的轨迹生成能力。与以往依赖确定性目标点建模的方法不同，Mimir首次通过拉普拉斯分布（Laplace Distribution）对目标点不确定性进行建模，使系统能够显式感知高层引导中的不确定信息，从而在复杂驾驶环境中生成更加稳定、安全的驾驶轨迹。此外，为了解决高层引导模块推理速度慢的问题，Mimir进一步提出了多速率引导机制（Multi-rate Guidance Mechanism），通过提前预测更长时间范围内的目标点，有效降低高层模块的调用频率，在保证规划精度的同时显著提升推理效率。在具有挑战性的 Navhard 与 Navtest 基准测试中，Mimir相较于此前最先进方法实现了20%的 EPDMS 驾驶评分提升，同时高层模块推理速度提升达到1. 6倍，在性能与效率之间取得了优异平衡。

该工作展示了“高层语义引导 + 不确定性建模”在端到端自动驾驶中的巨大潜力，也为未来高鲁棒、强实时性的自动驾驶系统设计提供了新的思路。 05. CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations作者：Wenbo Cui, Chengyang Zhao, Yuhui Chen, Haoran Li, Zhizheng Zhang, Dongbin Zhao, He Wang主页：https://cwb0106. github. io/CLAR/机器人操作中的感知能力一直是制约具身智能发展的核心问题。尽管近年来大量工作开始将预训练2D视觉基础模型引入机器人系统，以利用其强大的语义理解能力，但这类方法往往缺乏对三维空间结构的感知能力，并且在面对不同相机视角时泛化能力有限，尤其难以胜任精细化机器人操作任务。针对这一挑战，我们提出了全新的3D预训练框架 CL3R，旨在为机器人操作策略提供更强大的视觉感知能力。

CL3R首次将三维空间感知与语义理解有效结合：一方面，通过基于点云的Masked Autoencoder学习丰富的3D空间表示；另一方面，利用对比学习从预训练2D基础模型中迁移语义知识，实现高效的视觉语义对齐。同时，我们进一步提出统一坐标系的3D视觉预训练方案，并通过多视角点云随机融合机制，有效缓解相机视角歧义问题，大幅提升模型在新视角下的泛化能力。大量仿真与真实机器人实验表明，CL3R能够显著提升机器人视觉运动策略学习效果，在复杂操作任务中展现出更强的鲁棒性与泛化性能，为具身智能中的3D视觉感知与机器人操作学习提供了新的解决方案。 06. DiffuDepGrasp: Diffusion-based Depth Noise Modeling Empowers Sim2Real Robotic Grasping作者：Yingting Zhou, Wenbo Cui, Weiheng Liu, Guixing Chen, Haoran Li, Dongbin Zhao主页：https://diffudepgrasp. github.

io/如何让机器人在仿真中学会抓取，并能够“零样本”迁移到真实世界，一直是机器人学习中的关键难题。尤其是在基于深度图的抓取任务中，真实传感器产生的空洞、噪声等伪影，会与仿真环境中的理想深度图形成巨大的 sim2real gap，严重影响策略在真实机器人上的落地效果。为了解决这一问题，我们提出了全新的高效 sim2real 抓取框架 DiffuDepGrasp。与依赖复杂噪声建模、成对的数据集或额外基础模型的方法不同，DiffuDepGrasp能够仅通过仿真数据训练，实现真实机器人上的零样本迁移，同时在部署阶段无需额外计算开销。其核心创新在于提出了 Diffusion Depth Generator，用于生成兼具几何精度与真实传感器噪声特性的深度图。该模块包含两个关键部分：首先，Diffusion Depth Module 利用时间几何先验训练条件扩散模型，高效学习真实深度传感器复杂的噪声分布；其次，Noise Grafting Module 在注入真实感知伪影的同时，保持深度图的几何与尺度准确性，从而兼顾真实感与抓取精度。

值得注意的是，DiffuDepGrasp在实际部署时仅需输入原始深度图，无需额外中间表示或基础模型推理，因此具备极高的部署效率。实验结果表明，该方法在12类物体抓取任务中实现了95. 7%的平均成功率，并对未见过的新物体展现出优异的泛化能力，为机器人抓取中的 sim2real 问题提供了一种兼具性能与效率的新思路。 07. Towards Proprioception-Aware Embodied Planning for Dual-Arm Humanoid Robots作者：Boyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, Börje F. Karlsson, Dongbin Zhao, Yehui Tang, Zongqing Lu多模态大语言模型（MLLM）在机器人高层任务规划中展现出了巨大潜力，使机器人能够理解并执行复杂的人类指令。

Read on leiphone.com

Want this in your inbox every morning?

Daily brief at your local 8am — bilingual EN/中文, free.

Subscribe — it's free

More from 雷峰网机器人

See more →

给机器人造一座「数据工厂」，小米 Robotics-U0 如何破解具身智能最难的一道题？

雷峰网机器人

10h ago

FeaturedOriginal

给机器人造一座「数据工厂」，小米 Robotics-U0 如何破解具身智能最难的一道题？

AI Summary

Xiaomi's Robotics-U0 integrates multiple generative tasks into a unified model, enhancing robotic training data generation by 82.9 times, achieving top scores in WorldArena benchmarks, and improving task completion rates by 26.3% in challenging environments.

#Inference #Robotics #AI Startup