ICRA 2026｜美团&北航提出LIBERO-X：五级递进测试揭示VLA模型鲁棒性短板

5h ago

·~1 min·5/28/2026·zh·0

Quick Take

LIBERO-X introduces a rigorous robustness benchmark for Vision-Language-Action models, revealing their deployment limitations.

Key Points

Five-tier testing protocol assesses VLA model robustness.
Focus on real-world deployment challenges and failure modes.
Highlights need for improved generalization in VLA models.

Article Excerpt

From source RSS / original summary

原文作者：公众号“计算机顶会大全”原文链接：https://mp. weixin. qq. com/s/SbiHonAq0qYEP-sC-sB-bA 论文作者来自美团和北京航空航天大学论文链接：arXiv预印本https://arxiv. org/abs/2602. 06556arXiv PDFhttps://arxiv. org/pdf/2602. 06556. pdf官方项目页https://zackhxn. github. io/LIBERO-X/ LIBERO-X: Robustness Litmus for Vision-Language-Action Models过去，很多VLA模型在标准机器人基准上表现不错，但这并不等于它们真的具备真实部署能力。真实环境中的机器人任务，往往会同时遇到物体位置变化、场景结构变化、未见物体、视觉干扰和语言指令改写等问题。这篇论文提出LIBERO-X，核心不是再造一个更强模型，而是构建一个更严格的VLA鲁棒性评测基准，用来检验现有视觉语言动作模型到底稳不稳。

方法上，LIBERO-X设计了五级递进式测试协议，从局部空间扰动、大范围空间扰动，到场景拓扑重构、视觉属性变化和语义等价指令改写，逐层增加真实部署难度。同时，它构建了更高多样性的训练数据，并通过多标签诊断分析模型在交互类型、子任务数量、空间关系、物体属性等维度上的失败模式。实验结果显示，多个代表性VLA模型在LIBERO-X上都会随难度增加明显掉点，尤其在拓扑变化、未见物体、语言改写和多步长程任务中表现不稳定。这说明现有VLA并不是不会完成任务，而是缺少对复杂分布偏移的稳定泛化能力。这篇工作的价值在于，它把VLA评测从平均成功率推进到鲁棒性诊断。对具身智能研究来说，未来不仅要做更大的模型，也要做更真实的基准、更细的失败分析和更强的空间泛化、语言接地与长程执行能力，这正是VLA实用化落地的重要发文切口。雷峰网

Reader Mode unavailable (could not extract clean content).

Read on leiphone.com

Want this in your inbox every morning?

Daily brief at your local 8am — bilingual EN/中文, free.

Subscribe — it's free

ICRA 2026｜美团&北航提出LIBERO-X：五级递进测试揭示VLA模型鲁棒性短板

Quick Take

Key Points

Article Excerpt

Want this in your inbox every morning?

More from 雷峰网机器人

ICRA 2026 | 港中文高源、林天麟团队提出自发共适应策略：基于元学习赋能异构多机器人系统协同进化

百亿估值背后，普渡机器人以全球化商业实战练就具身智能「最强大脑」

ICRA 2026 | 李飞飞团队：软物体移动操作新解法，“从刚到柔”的关键一步

Related in this space

FORT Robotics Acquires Mapless AI to Expand Its Trust Platform with Remote Supervision and Active Safety Capabilities

Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

AutoRPA: Efficient GUI Automation through LLM-Driven Code Synthesis from Interactions