
ICRA 2026最佳论文奖,千寻智能首席科学家、清华高阳团队FP3入围
Quick Answer
The FP3 model, developed by Tsinghua University's Gao Yang and Spirit AI, is nominated for the ICRA 2026 Best Paper Award, showcasing a 1.3B parameter 3D strategy model that outperforms existing benchmarks by over 80% in unknown environments.
Quick Take
The FP3 model, developed by Tsinghua University's Gao Yang and Spirit AI, is nominated for the ICRA 2026 Best Paper Award, showcasing a 1.3B parameter 3D strategy model that outperforms existing benchmarks by over 80% in unknown environments. Spirit AI also announced a record 15 billion RMB funding and its model Spirit v1.6 topped the RoboArena benchmark, marking significant advancements in embodied AI.
Key Points
- FP3 achieves over 90% task success rate in unknown environments with minimal training samples.
- Spirit AI's funding reaches 15 billion RMB, setting a new industry record.
- FP3 utilizes a 1.3B parameter diffusion Transformer architecture for enhanced performance.
- Spirit v1.6 model surpasses NVIDIA's Cosmos3 in RoboArena benchmarks.
- Chinese embodied AI startups are rapidly expanding, with several nearing IPO.
Article Content
From source RSS / original summary原文作者:谭梓馨原文链接:https://mp. weixin. qq. com/s/llcXE2be4oNWItL_0ydVZw2026年IEEE国际机器人与自动化会议(IEEE ICRA 2026)是机器人与自动化领域的顶级学术盛会,于6月1日至5日在奥地利维也纳举办。 今年,FP3、HITTER等多篇华人团队论文入围最佳论文奖提名,头部科技此前曾报道过HITTER,今天来看另一篇研究FP3。 FP3论文的导师之一高阳是清华大学跨学科信息科学研究院(IIIS)的助理教授,同时他也是国内具身独角兽千寻智能(Spirit AI)的联创兼首席科学家。 下面,一起来看看FP3做了哪些创新工作。 三维基座带来的改进基于海量多任务数据预训练的基座大模型在机器人领域展现出巨大潜力,但绝大多数机器人基础策略模型仅采用二维图像作为输入观测,缺失三维几何信息,而三维几何是机器人感知、理解真实三维空间的关键。 概括来说,FP3是一个面向机器人操作的大规模三维基座策略模型。 该模型参数大小为1.
3B,基于可规模化的扩散Transformer架构搭建,依托6万条含点云观测的运动轨迹完成预训练,凭借特有模型结构与多元化预训练数据,FP3可快速微调适配各类下游任务,泛化性能优异。 真机实测表明:仅需80组人工示教样本,FP3即可在包含全新未知物体的陌生场景中习得新任务,性能大幅领先现有机器人基座模型。 在自建的多项新任务数据集上验证FP3高效微调与强泛化特性,结果显示:仅使用单卡、两小时微调,相较主流基线,同场景性能平均提升60%,开放未知场景性能平均提升80%。 性能对比表现突出FP3的在架构中设计了一个编码器-解码器扩散Transformer网络,首先对多模态输入进行编码,包括3D点云、语言和机器人本体感受状态,然后对动作进行去噪。 研究人员与业内其他机器人控制策略进行了对比,域内实验结果显示,单场景仅10条示教样本条件下:DP、DP3仅能勉强完成简单任务,多数场景成功率不足50%,在倒水这类高难度任务上基本失效;OpenVLA整体各项任务表现糟糕,根源在于缺少连续动作块预测机制。 依托预训练与三维点云表征,FP3全部任务成功率突破90%。
从实操现象来看,基线算法失败多源于动作精度缺陷:夹取时定位偏差推飞物件、倒水时瓶口对偏等;而FP3凭借大参数量与海量预训练,可精准拟合复杂目标动作,输出轨迹更平滑、控制精度更高,显著优于对比算法。 将机械臂更换至全新环境、使用从未见过的物体开展零样本测试,不含预训练的所有基线策略普遍无法识别目标物体,任务成功率近乎归零。 反观经过预训练的FP3极少出现识别失效,全场景平均成功率超80%,全面碾压对照组。 研究认为优异性能来自两点:一是大规模预训练覆盖海量场景与物件,大幅提升策略鲁棒性;二是点云输入可精准捕获三维几何特征,是实现跨域泛化的关键。 指令跟随测试结果显示,在初始环境完全一致的条件下,使用多条不同文本指令测试FP3与基线策略,FP3可精准依照指令执行对应任务,并非单纯死记训练数据分布。 研究人员在论文中表示,FP3虽作为基座策略模型表现优异,但仍存在若干短板:第一,FP3下游微调效率与泛化能力突出,但基座原生零样本性能偏弱,诱因大概率是预训练所用DROID数据集体量不及OXE等二维机器人数据集,后续可构建规模更大的三维机器人数据集用于预训练。
第二,FP3仅依靠CLIP嵌入实现语言条件接入,难以表征复杂动态语义;后续可将本扩散架构FP3与视觉大模型VLM融合,搭建类似π0的视觉-语言-动作(VLA)模型;第三,当前FP3未复用DINOV2、SigLIP等成熟预训练二维视觉编码器,融合三维点云特征与二维图像特征、或将二维特征升维至三维空间具备巨大优化空间,相关研究留作未来工作。 具身独角兽激烈竞逐FP3之外,高阳所在的千寻智能今天也官宣了两大进展。 一方面,其自研具身基座模型Spirit v1. 6在具身基准测试平台RoboArena中成功登顶,性能超过英伟达Cosmos3与Physical Intelligence Pi0. 5,成为首个登顶的中国具身模型。 另一方面,该公司宣布新获15亿元A+轮融资,从2月份至今融资近50亿再次刷新行业纪录。 千寻智能在官宣中表示2026年将积累100万小时级真实世界交互数据的阶段性沉淀,涵盖丰富的长尾复杂场景与多模态操作样本,构筑核心护城河。 在另一份榜单具身智能大规模真机评测平台RoboChallenge的Table30系列任务测试中,千寻智能此前发布的Spirit v1.
5目前排名第四,排名第一的是星动纪元Era0模型,其次是原力灵机的DM0和极佳视界的GigaBrain-0. 1,模型排位变换之间也见证了中国具身智能创业赛道竞争之激烈。 今年以来,估值超百亿的具身独角兽不断扩容,除了上述几家公司,赛道中还有银河通用、星海图、智元、智平方、自变量、星尘智能、灵心巧手、帕西尼感知等等,即将IPO的宇树也计划将募资重点投入到具身智能大模型。 独角兽们的技术竞逐,正加速机器人行业拐点的到来,推动中国成为全球具身智能落地的核心市场。 -END-雷峰网
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.
More from 雷峰网机器人
See more →
独家实拍|苏昊旗下机器人全球首次亮相,苏度科技惊艳 ICRA 2026
Sudo Technology showcased its robot at ICRA 2026, achieving nearly 100% Zero-shot success without real data training. The robot, featuring a dual-arm design with 7 degrees of freedom, utilizes a proprietary visual perception system to grasp various objects, highlighting advancements in Sim2Real technology.


