
ICRA 2026|美团&北航提出LIBERO-X:五级递进测试揭示VLA模型鲁棒性短板
Quick Take
LIBERO-X introduces a rigorous robustness benchmark for Vision-Language-Action models, revealing their deployment limitations.
Key Points
- Five-tier testing protocol assesses VLA model robustness.
- Focus on real-world deployment challenges and failure modes.
- Highlights need for improved generalization in VLA models.
Article Excerpt
From source RSS / original summary原文作者:公众号“计算机顶会大全”原文链接:https://mp. weixin. qq. com/s/SbiHonAq0qYEP-sC-sB-bA 论文作者来自美团和北京航空航天大学论文链接:arXiv预印本https://arxiv. org/abs/2602. 06556arXiv PDFhttps://arxiv. org/pdf/2602. 06556. pdf官方项目页https://zackhxn. github. io/LIBERO-X/ LIBERO-X: Robustness Litmus for Vision-Language-Action Models过去,很多VLA模型在标准机器人基准上表现不错,但这并不等于它们真的具备真实部署能力。 真实环境中的机器人任务,往往会同时遇到物体位置变化、场景结构变化、未见物体、视觉干扰和语言指令改写等问题。 这篇论文提出LIBERO-X,核心不是再造一个更强模型,而是构建一个更严格的VLA鲁棒性评测基准,用来检验现有视觉语言动作模型到底稳不稳。
方法上,LIBERO-X设计了五级递进式测试协议,从局部空间扰动、大范围空间扰动,到场景拓扑重构、视觉属性变化和语义等价指令改写,逐层增加真实部署难度。 同时,它构建了更高多样性的训练数据,并通过多标签诊断分析模型在交互类型、子任务数量、空间关系、物体属性等维度上的失败模式。 实验结果显示,多个代表性VLA模型在LIBERO-X上都会随难度增加明显掉点,尤其在拓扑变化、未见物体、语言改写和多步长程任务中表现不稳定。 这说明现有VLA并不是不会完成任务,而是缺少对复杂分布偏移的稳定泛化能力。 这篇工作的价值在于,它把VLA评测从平均成功率推进到鲁棒性诊断。 对具身智能研究来说,未来不仅要做更大的模型,也要做更真实的基准、更细的失败分析和更强的空间泛化、语言接地与长程执行能力,这正是VLA实用化落地的重要发文切口。 雷峰网
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.



