已登ICRA 2026，VLA实用化路线彻底杀疯了！

6/1/2026

·~2 min·6/1/2026·zh·4

Quick Answer

The ICRA 2026 highlights a shift in VLA models towards practical deployment in robotics, emphasizing stability and cost-effectiveness.

Quick Take

The ICRA 2026 highlights a shift in VLA models towards practical deployment in robotics, emphasizing stability and cost-effectiveness. Notable advancements include the CEBench for real-world testing and the FD-VLA model, which integrates force feedback for improved manipulation tasks, achieving higher success rates than traditional methods. This marks a significant move from theoretical capabilities to real-world applicability in embodied intelligence.

Key Points

CEBench benchmark tests VLA models under real-world conditions, addressing deployment challenges.
FD-VLA model improves manipulation tasks by integrating force feedback, enhancing success rates.
LIBERO-X establishes a rigorous robustness evaluation for existing VLA models in dynamic environments.
Research shifts focus from large models to practical, low-cost solutions for embodied intelligence.
VLA's practical deployment is now prioritized over mere performance demonstrations.

Article Content

From source RSS / original summary

原文作者：公众号“计算机顶会大全”原文链接：https://mp. weixin. qq. com/s/SbiHonAq0qYEP-sC-sB-bA近期顶会工作来看，VLA正在进入新阶段：不只是能做任务，而是要能稳定、低成本、跨场景地落地到真实机器人系统中。这类研究共同释放了一个信号：具身智能的竞争点正在从大模型能力展示转向实用化能力验证。一方面，研究开始关注多机器人本体、导航与操作统一、仿真到真实迁移等真实部署问题；另一方面，评测标准也不再只看平均成功率，而是更重视空间扰动、物体变化、语言歧义和任务复杂度下的鲁棒性退化。同时，力觉、触觉等非视觉模态也开始被纳入VLA框架，用来解决接触丰富操作中的精细控制难题。本文整理了20篇 VLA实用化相关前沿论文。论文介绍：ICRA 2026| Rethinking the Practicality of Vision-language-action Model: A Comprehensive Benchmark and An Improved Baseline现有VLA真的适合真实机器人部署吗？

论文指出，当前很多VLA模型依赖大参数规模、大规模预训练和固定机械臂场景，存在训练成本高、跨本体适配弱、真实部署困难等问题。为此，作者提出面向实用化评测的CEBench基准，覆盖单臂操作、双臂操作和真实世界双臂移动操作，并引入背景变化、物体干扰、桌面高度变化等领域随机化设置，专门测试VLA在真实扰动下的稳定性。方法上，论文提出轻量化基线LLaVA-VLA，基于小型视觉语言模型构建，通过多视角图像输入、本体状态标记、动作分块和两阶段训练，实现导航与操作统一建模。实验表明，小模型在CALVIN等任务上接近甚至超过部分大模型；多视角输入、本体状态标记和合适动作分块都能显著提升性能；在真实双臂和移动操作任务中，模型也展现出更强鲁棒性。这篇工作的价值在于，它不再单纯追求更大的机器人模型，而是强调低成本训练、跨本体泛化、真实扰动评测和移动操作落地。对具身智能研究来说，这意味着VLA正在从模型炫技走向真实可用。

论文介绍： ICRA 2026| FD-VLA: Force-Distilled Vision-Language-Action Model for Contact-Rich Manipulation过去，VLA模型主要依赖视觉和语言来完成机器人操作，但在真实场景中，很多任务并不是看见就能做好。比如插头插入、按钮按压、擦白板等接触丰富任务，真正影响成功率的是接触力、阻力变化、摩擦和细微形变。这篇论文关注的正是VLA的力觉短板。论文提出FD-VLA，通过力蒸馏机制，让模型在训练阶段利用真实力信号学习潜在力表示；在推理阶段，则不再依赖实体力传感器，而是根据视觉观察和机器人本体状态预测力标记，并与视觉语言信息共同生成动作。这样既保留了力觉对接触操作的帮助，又降低了真实部署时对昂贵、脆弱传感器的依赖。创新点主要在于三方面：一是把力觉信息以蒸馏方式融入VLA，而不是简单拼接原始力信号；二是利用视觉和本体状态预测接触相关力表示，提升任务相关性和鲁棒性；三是在真实机器人平台上验证擦白板、按按钮、插头插入等典型接触任务。

实验表明，FD-VLA整体成功率明显高于无力觉版本和直接输入原始力信号的方法，说明可学习的力表示比粗暴使用传感器数据更有效。这篇论文的价值在于，它把VLA从看懂再行动推进到理解接触再行动。对具身智能研究来说，力觉蒸馏、触觉增强、状态建模和接触丰富操作，正在成为VLA实用化落地的重要发文切口。论文介绍：LIBERO-X: Robustness Litmus for Vision-Language-Action Models过去，很多VLA模型在标准机器人基准上表现不错，但这并不等于它们真的具备真实部署能力。真实环境中的机器人任务，往往会同时遇到物体位置变化、场景结构变化、未见物体、视觉干扰和语言指令改写等问题。这篇论文提出LIBERO-X，核心不是再造一个更强模型，而是构建一个更严格的VLA鲁棒性评测基准，用来检验现有视觉语言动作模型到底稳不稳。方法上，LIBERO-X设计了五级递进式测试协议，从局部空间扰动、大范围空间扰动，到场景拓扑重构、视觉属性变化和语义等价指令改写，逐层增加真实部署难度。

同时，它构建了更高多样性的训练数据，并通过多标签诊断分析模型在交互类型、子任务数量、空间关系、物体属性等维度上的失败模式。实验结果显示，多个代表性VLA模型在LIBERO-X上都会随难度增加明显掉点，尤其在拓扑变化、未见物体、语言改写和多步长程任务中表现不稳定。这说明现有VLA并不是不会完成任务，而是缺少对复杂分布偏移的稳定泛化能力。这篇工作的价值在于，它把VLA评测从平均成功率推进到鲁棒性诊断。对具身智能研究来说，未来不仅要做更大的模型，也要做更真实的基准、更细的失败分析和更强的空间泛化、语言接地与长程执行能力，这正是VLA实用化落地的重要发文切口。雷峰网

Read on leiphone.com

Want this in your inbox every morning?

Daily brief at your local 8am — bilingual EN/中文, free.

Subscribe — it's free

More from 雷峰网机器人

See more →

给机器人造一座「数据工厂」，小米 Robotics-U0 如何破解具身智能最难的一道题？

雷峰网机器人

10h ago

FeaturedOriginal

给机器人造一座「数据工厂」，小米 Robotics-U0 如何破解具身智能最难的一道题？

AI Summary

Xiaomi's Robotics-U0 integrates multiple generative tasks into a unified model, enhancing robotic training data generation by 82.9 times, achieving top scores in WorldArena benchmarks, and improving task completion rates by 26.3% in challenging environments.

#Inference #Robotics #AI Startup