
CVPR 2026现场直击:CV与机器人的物理结界被彻底打破
Quick Answer
This paper shows that CVPR 2026 in Denver showcases a significant shift in computer vision towards embodied intelligence, with 16,092 submissions and a 25.42% acceptance rate.
Quick Take
CVPR 2026 in Denver showcases a significant shift in computer vision towards embodied intelligence, with 16,092 submissions and a 25.42% acceptance rate. Chinese institutions dominate the top ten with 8 entries, led by Shanghai Jiao Tong University. Notable workshops feature Tesla and XPeng discussing foundational models for robotics, while Xiaomi wins the RoboChallenge with a 40.89% success rate.
Key Points
- CVPR 2026 received 16,092 submissions, a 24% increase from last year.
- Chinese universities secured 8 out of the top 10 accepted papers.
- Xiaomi achieved a 40.89% success rate in the RoboChallenge competition.
- Workshops featured industry leaders like Tesla and XPeng discussing robotics.
- AI Demonstrations showcased real-world applications of cutting-edge research.
Article Content
From source RSS / original summary6月4日,当维也纳多瑙河畔的 ICRA 2026 进入正会的最后一天,大洋彼岸的美国丹佛科罗拉多会议中心(Colorado Convention Center)已经人声鼎沸。 许多我们前几天还在维也纳见到的熟悉面孔,各大顶尖高校的学者和硬科技企业的高管,此刻都正拖着行李箱,马不停蹄地出现在丹佛的街头。 这种罕见的“全球双城赶场”现象背后,是计算机视觉(CVPR)与机器人(ICRA)两大顶会赛道正在发生的史诗级大融合。 今年的 CVPR 在丹佛当地时间 6月3日至4日率先开启 Workshop 环节,正会及重磅颁奖典礼则在 6月5日正式拉开帷幕,雷峰网已提前抵达第一现场,为您带来这份滚烫的展前观察。 011. 6万篇投稿的“诸神之战”:从感知世界,到理解物理最新官方数据显示,本届 CVPR 2026 的论文投稿量达到了惊人的 16,092 篇,较上一年激增 24%,而最终录用量在 4,090 篇左右,录用率依旧维持在残酷的 25. 42% 上下。 翻看今年的论文列表与 Workshop 议程,如果说前两年的 CVPR 还在卷图像生成和 2D 检测,那么今年丹佛的核心叙事已经彻底转向了“多模态基础模型”与“具身智能”。
在挤满人的分会场里,这种趋势尤为明显。 无论是探讨如何将视觉-语言-动作(VLA)模型部署到自动驾驶和机器人上的 WDFM-EAI(具身智能基础模型部署)Workshop,还是引入了真实机器人操控挑战赛(ManipArena Competition)的具身智能专场,都在传递一个极其明确的信号:计算机视觉已经走出了“画框识别”的屏幕舒适区,全面向具有物理法则的真实三维世界进军。 视觉系统不再仅仅满足于“看(Sense)”,而是开始作为中枢大脑主导“行动(Act)”。 中国高校的论文产出量也折射出这股浪潮的烈度。 最新统计显示,CVPR 2026 高校论文接收 Top 10 中,中国高校占据八席:上海交通大学以 46 篇高居榜首,浙江大学 40 篇紧随其后,中国科学技术大学 38 篇位列第三,中山大学以 36 篇超越北大、清华冲入前四,堪称本届最大黑马。 更为惊人的是西湖大学。 仅 4 位学者合力产出 22 篇,以“闪电战”模式跻身第十,人均效率冠绝全场。 02CVPR的中国军团:大厂坐镇,新锐出海,重塑生态话语权在去年的顶会上,中国学者的论文数量就已占据半壁江山。
而在今年的丹佛,这种中国力量同样体现在产业端和生态链的每一个环节。 今年在丹佛布展的中国公司,覆盖了互联网、大模型、机器人、智能驾驶四大领域:字节跳动、阿里巴巴、蚂蚁集团、腾讯、美团、元戎启行、百度、MiniMax、宇树科技、光轮智能、自变量。 我们现场还看到了官方的赞助商名单,堪称一份中国 AI 实力的“巡礼图”:终极赞助商与白金阵营:腾讯强势拿下最高级别的 Ultimate Sponsor;在白金赞助商中,阿里云、蚂蚁集团、字节跳动悉数在列,体现了中国科技巨头在算力与大模型上的统治力。 更引人注目的是,国内大模型独角兽 MiniMax 也跻身白金行列,展示了中国多模态大模型企业强劲的出海与科研反哺实力。 黄金与白银阵营:如果说大厂代表了底气,那么具身智能等垂直赛道的初创公司则代表了锐气。 在这个区间,我们看到了令人惊喜的本土生态网:Sudo(苏度科技):由知名学者苏昊教授创办的具身智能明星公司,高调亮相丹佛,带来其在强化学习与物理仿真领域的最新降维打击。 此前雷峰网编辑在ICRA 2026展会现场报道,苏度科技机器人已能够准确抓取不同材质和形态的物体,泛化性极高。
Linkerbot:总部位于北京的中国明星机器人创企,专注于高自由度灵巧手及具身智能硬件研发。 Nexdata(数据堂国际品牌):在数据为王的今天,他们直接端出了行业最紧缺的 VLM 数据集及灵巧手物理遥操作数据,精准卡位“数据基建”。 HPC AI COM(潞晨科技):尤洋教授团队带来的 Colossal-AI 系统,正在为全球开源大模型与视频生成(如 Open-Sora)提供底层弹药。 百度(Baidu)与美团(Meituan)也出现在黄金赞助商阵营,进一步壮大了中国军团的阵容。 从提供算力和基础架构(阿里云、潞晨),到多模态基座大模型(MiniMax、字节),再到数据集(Nexdata)和具身智能本体硬件(苏度、Linkerbot),中国企业在 CVPR 2026 的舞台上,已经完全撕掉了过去“底层代工”的标签,构建起了一条坚不可摧的“软硬一体全栈 AI 产业链”。 03Workshop 密集开火:中国企业从“参会”走向“设局”如果说赞助商名单是实力的名片,那么 Workshop 才是真正争夺话语权的主战场。
在 CVPR 2026 为期三天的 Workshop 环节中,超过 80 场专题研讨会密集开火,其中中国企业与机构不再只是“到场听讲”,而是越来越多地以组织者身份亲自“设局”,把议题方向和评审标准攥在自己手里。 WDFM-EAI:特斯拉与小鹏“纯视觉双雄”同台6月3日,本届 CVPR 产业浓度最高的对话在 WDFM-EAI(具身智能基础模型部署)Workshop 悄然上演。 特斯拉 Autopilot 及 AI 负责人 Ashok Elluswamy 与小鹏汽车通用智能中心负责人刘先明,以及 Waymo 研究副总裁 Dragomir Anguelov、英伟达感知与机器人研究副总裁 Jan Kautz,罕见同台。 刘先明是现场唯一受邀的中国车企代表。 这也是小鹏第三次登上 CVPR 演讲台。 Ashok 的演讲题目为《Building Foundational Models for Robotics at Tesla》,系统披露了 Tesla 在具身智能方向的技术积累:FSD 上下文长度从约 10 秒猛增至约 30 秒(提升 3 倍);FSD 模型完整输入/输出架构首次公开亮相。
现场还播放了一段 Tesla Robotaxi 瞬间避让摔落骑行者的真实视频,引发全场热议,清晰传递出 Tesla 的战略意图:将自动驾驶作为更广泛机器人与具身 AI 平台的一部分,与 Optimus 人形机器人项目深度协同。 刘先明则给出了小鹏对“模块化堆叠 vs 端到端世界模型”之争的明确答案:“VLA 与世界模型并非相互竞争的技术路线,而是物理世界基座模型的两大支柱。 ”VLA 学的是“人类驾驶员会怎么做”,世界模型学的是“物理世界接下来会发生什么”,二者融合才是正解。 他进一步透露,小鹏第二代 VLA 已量产落地,推送首月用户辅助驾驶里程占比首次突破 50%,并判断“只有能做基座模型的公司,才有可能真的做到 L4”。 OpenDriveLab:从自动驾驶到具身智能,上海 AI Lab 系连办四届如果说 WDFM-EAI 是产业对话场,那么 OpenDriveLab(上海 AI Lab/商汤系)主办的 EmbodiedAIinLife Workshop 则是学术话语权的硬核争夺。
这已经是该团队连续第四年在 CVPR 主办 Workshop:从 2023 年的“端到端自动驾驶”,到 2024 年的“具身智能与自动驾驶”,到 2025 年的“基础模型与自主系统”,再到今年的“从实验室到生活:野外具身智能”,研究视野从特定任务逐步拓展到通用具身智能。 今年的嘉宾阵容堪称全明星:苏昊教授(苏度科技创始人、CVPR 2025 程序主席)演讲《物理理解的幻觉》;哈佛助理教授 Yilun Du 谈世界模型与具身智能;UC Berkeley 的 Jiahui Lei 讲从 4D 视觉到机器人;UPenn 助理教授Jiatao Gu发问“具身智能需要关心 3D 吗? ”更值得注意的是,Workshop 尾声特别设置了嘉宾与组织者辩论环节,火药味可见一斑。 GigaBrain Challenge:真机赛道成中国团队主场,小米斩获双料冠军如果说 Workshop 演讲描绘了具身智能的理论蓝图,那么赛场上的真机对决则用硬指标给出了最直白的回答:概念能不能落地,数据说了算。
由极佳视界(GigaAI)牵头,联合港大、北大、上海交大、地平线机器人、智元机器人(AGIBOT)等共同组织的 GigaBrain Challenge 2026,是本届 CVPR 竞赛维度最丰富的 Workshop 之一。 它同时开设了四个赛道:仿真 VLA 评测(RoboTwin)、世界模型评估器(GigaWorld)、真机机器人操控(RoboChallenge)和物理爪持演示(PhysClaw),从仿真到真机、从评估到部署,构成了一条完整的具身智能能力验证链路。 这个 Workshop 也成了中国团队的主场:小米拿下 RoboChallenge 真机赛道冠军(40. 89% 成功率,唯一破 40%成功率),电子科技大学拿下 RoboTwin 仿真赛道冠军,清华大学拿下世界模型赛道冠军,清华深研院拿下 PhysClaw 演示赛道冠军。 中国团队在四个赛道中包揽全部冠军,这在 CVPR 历史上极为罕见。 值得一提的是,小米机器人团队同时斩获本届 CVPR 2026 与 ICRA 2026 两项冠军,成为丹佛与维也纳双城最耀眼的“中国赛果”。
RoboChallenge Track共设置 30 个超难度真实任务,涵盖双臂灵巧操作、柔性物体操控、工具因果推理与跨平台鲁棒性,需进行 10 次连续无干扰测试,且要求提交统一多任务模型。 在这对泛化性要求极高的赛事中,小米参赛模型“my16”杀出重围,它采用“S1/S2 双系统 + 长短期记忆 + 跨本体预训练”的整体架构,融合了大模型的认知深度、控制器的执行精度与记忆系统的长程稳定性。 最终,my16以 40. 89% 的整体成功率显著领先,是本届赛事唯一突破 40% 成功率门槛的模型,综合排名位列总榜第一。 04现场直击:F 展厅首秀与巴黎响应为了让参会者更直观地感受技术如何转化为现实应用,CVPR 2026 历史上首次在 F 展厅推出“AI Demonstrations”环节。 近 30 场来自各大科技公司和研究团队的现场演示,将实验室里的前沿论文变成可交互、可运行的真实系统。 不少参会者戏称:“这才是 CVPR 的正确打开方式——不看 poster,看真机。 ”而在丹佛主会场之外,一股“平行浪潮”同样值得关注。
大量无法赴美的欧洲学者,在巴黎自发组织了 CVPR@Paris 2026 平行活动,其讲者名单含金量极高,包括多位 CV 领域顶尖学者,近年来在多模态与视觉大模型领域频出爆款的香港大学李弘扬教授(Hongyang Li)在ICRA、CVPR两大顶会赶场的同时,也受邀成为 CVPR@Paris 2026 的嘉宾,即将登台分享。 这一方面折射出 CVPR 的全球影响力已溢出丹佛会场,另一方面也暗示着:计算机视觉这场“诸神之战”,早已不再局限于某一个地理坐标。 CVPR正会将在当地时间6月5日开始,届时开幕式上也将会颁布一系列奖项,雷峰网将会持续关注。 05锁定雷峰网专区,独家抢先透视从 ICRA 的维也纳,到 CVPR 的丹佛,技术的浪潮正在前所未有地加速。 纯视觉如何抹平 Sim-to-Real 的虚实差异? 视觉大模型如何学会理解 3D 空间结构与反常识的物理碰撞? VLA 与世界模型的融合终局在哪里? 为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 CVPR 2026 的完整干货,雷峰网已全面上线【CVPR 2026 深度专区】。
专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲,更将持续更新前方的第一手会议动态。 扫描下方二维码,或点击「阅读原文」关注专区。
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.
More from 雷峰网 AI
See more →
独家|前小米崔宝秋低调创业,揭开家庭机器人的最优解
Cui Baoqiu, former Xiaomi tech lead, has launched 'Ruoban Technology' focusing on home robotics, securing star-studded seed funding. His vision includes integrating AI-driven robots into smart homes, leveraging his extensive experience from Xiaomi and the open-source movement.


