
CVPR 2026终极盘点:这5篇论文、1个演讲、3个展台,藏着计算机视觉下一个十年的答案
Quick Answer
This paper shows that CVPR 2026 showcased a paradigm shift in computer vision towards embodied intelligence, with 5 award-winning papers emphasizing active understanding and action.
Quick Take
CVPR 2026 showcased a paradigm shift in computer vision towards embodied intelligence, with 5 award-winning papers emphasizing active understanding and action. Notable models include D4RT, achieving 300x speed improvements in dynamic 4D reconstruction, and NitroGen, enhancing zero-shot generalization in robotics across 1000 games. Simon Kohl's keynote on programmable biology highlighted AI's transformative potential in molecular design.
Key Points
- D4RT achieves 300x faster dynamic 4D reconstruction with unified decoding interface.
- NitroGen enhances zero-shot generalization in robotics, trained on 40,000 hours of gameplay.
- SAM 3D enables real-time 3D understanding from single images without expensive sensors.
- Simon Kohl's keynote emphasized AI's role in transforming traditional drug design.
- China dominated CVPR 2026 with 8 out of 10 top papers and significant industry presence.
Article Content
From source RSS / original summary视觉-语言与多模态LLM论文占比一年飙涨5. 7个百分点,CVPR正以前所未有的速度把具身智能推上主赛道。 作者丨陈淑瑜 编辑丨岑峰 16,092篇投稿,4,071篇录用,25. 3%录取率,今年的CVPR创下了多项历史纪录。 但比数字更具风向标意义的是行业风向:5篇获奖论文中至少3篇直指具身智能;展台上NVIDIA和Tesla正合力把机器人从实验室推向商业化;一场关于“可编程生物学”的重磅演讲,则彻底打破了计算机视觉与传统药物设计的边界。 如果你没能亲自前往丹佛,这篇全景盘点将带你用最短的时间,一眼看透本届大会的全部精髓。 015篇论文:从4D重建到一步式编辑,具身智能全面接管今年CVPR的最佳论文奖项共有74篇入围,15篇进入决赛圈,最终5篇获奖。 纵观这些获奖作品,能发现一个显而易见的行业共性:计算机视觉正从“被动感知”走向“主动理解与行动”。 ▎最佳论文:D4RT——让机器人“看见”第四个维度动态场景的4D重建一直是计算机视觉中的“硬骨头”。 现有方法要么把任务拆成多个模块分别处理,慢且复杂。 要么无法处理动态区域的对应关系,要么两者皆有。 D4RT的核心贡献在于范式转换。
模型先用编码器把整段视频压缩成一个全局场景表示,再用一个轻量解码器按需回答“视频中某个点在某个时刻的3D位置是什么”,深度图、点云、点轨迹、相机参数全部通过同一套查询接口输出。 这一设计的精妙之处在于“统一解码接口”,避免了逐帧密集解码的巨大开销,让模型可以独立且灵活地探测空间中任意点在任意时刻的3D位置。 比前代方法快300倍,在动态4D重建与追踪任务上达到新的SOTA,并支持对视频全部像素进行稠密整体重建。 D4RT对具身智能的意义尤为深远。 机器人在动态环境中需要理解并预测人的动作,D4RT的“全像素跟踪”能力提供了时空连续的人体运动感知基础。 它能解耦相机运动、物体运动和静态几何,使机器人区分“人在动”和“环境在动”,为稳定的人机协作感知奠定了基础。 论文: Efficiently Reconstructing Dynamic Scenes One D4RT at a Time机构: Google DeepMind / UCL / 牛津大学论文链接: https://arxiv. org/pdf/2512.
08924▎最佳论文提名:NitroGen——从打游戏到操控机器人的通用具身路线图NitroGen的核心定位是“视觉-动作基础模型”。 它在涵盖1000+游戏、总计40,000小时的游戏试玩视频上训练而成,一个模型看游戏画面即可输出手柄操作,并在1000个不同游戏中实现零样本泛化。 相较于从头开始训练的模型,其任务成功率实现了高达52%的相对提升。 NitroGen背后的灵魂人物是Jim Fan,NVIDIA高级研究员、GEAR团队负责人。 他的研究脉络本身就是一条从虚拟到物理的具身智能进化史:SURREAL的分布式深度强化学习、MineDojo从10万+Minecraft YouTube视频中学习、Voyager首个自主玩Minecraft的AI Agent、Eureka用GPT-4加速机器人训练,直到NitroGen指向“通用具身Agent”,实现跨技能、跨具身、跨现实(物理和虚拟)泛化。 NitroGen的研究路线对机器人模仿学习有着直接的迁移价值。 这种从大规模视频中自动提取动作标签、训练视觉-动作策略的框架,可以直接搬到人机协作场景中,让机器人快速学会人类的协作策略。
论文: NitroGen: An Open Foundation Model for Generalist Gaming Agents机构: NVIDIA / 斯坦福大学 / 加州理工学院 / 芝加哥大学 / 德州大学奥斯汀分校论文链接: https://arxiv. org/abs/2601. 02427▎ 最佳论文提名:SAM 3D——一眼看透3D世界作为Segment Anything系列的3D延伸,SAM 3D包含Objects(重建物体)与Body(估计人体)两个子模型。 两者均采用多阶段DiT架构,即便面对普遍遮挡和凌乱环境,也能稳健重建。 研究团队通过“人机协同”管线实现了这一突破,标注了规模空前的视觉基底3D重建数据,并在多阶段训练框架中将合成数据预训练与真实世界对齐相结合,打破了3D领域长期存在的“数据壁垒”。 在针对真实世界物体和场景的人类偏好测试中,SAM 3D获得了至少5:1的胜率。 对具身智能而言,它让机器人无需依赖高昂的深度传感器,仅凭单张图像即可实时、准确地获取人类的3D姿态和空间场景理解。
论文: SAM 3D: 3Dfy Anything in Images机构: Meta超级智能实验室论文链接: https://arxiv. org/abs/2511. 16624▎最佳学生论文:CLAY——3D生成进入大模型时代3D生成建模领域近年来进展显著,但现有表示方法仍难以捕捉具有复杂拓扑结构和精细外观的3D资产。 CLAY的核心创新是O-Voxel,一种新型稀疏体素结构,能同时编码几何与外观,稳健地建模任意拓扑,包括开放、非流形及全封闭表面,同时捕捉纹理颜色之外的丰富表面属性,如基于物理的渲染参数。 基于O-Voxel,作者设计了稀疏压缩变分自编码器,实现了高空间压缩率和紧凑的潜在空间,随后训练了包含40亿(4B)参数的大规模流匹配模型用于3D生成。 尽管规模庞大,推理过程依然高效,且生成资产的几何与材质质量远超现有模型。 对具身智能研究者而言,CLAY的价值在于:用3D生成模型可以快速构建仿真环境,大幅降低HRI(人机交互)仿真成本。 当然,如何保证生成场景的物理合理性、如何让生成的3D场景支持交互仿真,仍是待解的问题。
论文: Native and Compact Structured Latents for 3D Generation机构: 清华大学 / 微软研究院 / 中国科学技术大学 / 微软AI论文链接: https://arxiv. org/abs/2512. 14692▎ 最佳学生论文提名:ChordEdit——让一步式图像编辑真正可用一步式文本生成图像(T2I)模型带来了前所未有的生成速度,但将其用于文本引导的图像编辑却困难重重:强行把现有免训练编辑方法压缩到单步推理中,往往导致物体严重变形和非编辑区域一致性丢失。 这个问题的根源在于,直接在模型的结构化场上做朴素的向量运算,会产生高能量、剧烈抖动的轨迹。 ChordEdit将图像编辑重新表述为一个传输问题:在由源文本提示词和目标文本提示词所定义的源分布与目标分布之间进行传输。 基于动态最优传输理论,研究者推导出一种有原则的低能量控制策略,得到更平滑、方差更低的编辑场,使得编辑场可以通过一次较大的积分步长完成遍历,最终让一步式扩散模型首次实现高保真、实时图像编辑。 ChordEdit是一个模型无关、无需训练、也无需反演的方法,这种优雅的理论框架让它在5篇获奖论文中独树一帜。
虽然它与具身智能的直接关联较弱,但“一步式推理”的理念,与端侧部署和实时交互的工业需求高度契合。 论文: ChordEdit: One-Step Low-Energy Transport for Image Editing机构: 广东工业大学 / 惠州学院 / 深圳大学 / 北京大学论文链接: https://arxiv. org/abs/2602. 19083021个演讲:Simon Kohl与“可编程生物学”的震撼宣言在CVPR 2026的大会特邀演讲环节,前DeepMind蛋白质设计团队核心成员、2024年诺贝尔化学奖获奖项目AlphaFold核心研究员、Latent Labs创始人兼CEO Simon Kohl发表了题为"Programmable Biology: Generative AI for Molecular Design"的演讲。 这场演讲或许是本届CVPR最“跨界”的Keynote,也是最具冲击力的。 Simon Kohl指出,传统药物研发由于“从错误的分子出发”导致九成候选药最终失败。 过去五年计算药物设计迎来指数级跃迁,技术已从基础的蛋白质结构预测,演进到抗体设计智能体自主运行的全新阶段。
其团队创建的AI智能体Latent-Y目前已实现实验室验证。 只需输入一句自然语言指令,智能体便能自主接管靶点分析、提示词生成、并行设计及迭代的全流程。 在针对“不可成药”靶标(如KRAS)和血脑屏障靶标的压力测试中,AI仅用1天计算加4周验证,便在结合力上与传统耗时数月的万亿级筛选分庭抗礼。 正如他所言,“生物学终将成为一门可编程的工程学科。 ”从ImageNet到AlphaFold,从像素识别到分子设计,AI正在以前所未有的速度将一个又一个“不可能”变为“可编程”。 033个展台:从NVIDIA到Tesla到Apple,具身智能“卷”出实验室论文赛道指明了前沿研究的去向,而展台则揭示了技术正以多快的速度被推向商业市场。 在CVPR 2026的展览厅里,具身智能和物理AI成为了绝对的主旋律。 以下这三个展台,最具代表性:▎NVIDIA(Booth 211):具身智能的“军火商”NVIDIA是本届CVPR最大的展商之一,展台上最吸引眼球的是先进的机器人抓取演示和自动驾驶研究展示。 此外还展示了Nemotron 3 Nano Omni模型,一个统一视觉、音频和语言的端侧多模态模型,让开发者在边缘设备上也能部署多模态AI。
NVIDIA在CVPR 2026的角色更像一个“军火商”,为整个具身智能生态提供从训练到推理的基础设施。 从GPU算力到仿真平台,从大模型到端侧部署,NVIDIA的展台几乎覆盖了具身智能全链条。 Jim Fan团队的NitroGen获得最佳论文提名,进一步证明了NVIDIA在学术和工程两端的统治力。 ▎Tesla:纯视觉的激进赌注Tesla的展台则聚焦于纯视觉自动驾驶和机器人进展。 在WDFM-EAI Workshop上,Tesla Autopilot及AI负责人Ashok Elluswamy的演讲引发全场热议,他系统披露了Tesla在具身智能方向的技术积累,包括FSD上下文长度从约10秒猛增至约30秒(提升3倍),以及FSD模型完整输入/输出架构的首次公开。 清晰传递出Tesla的战略意图:将自动驾驶作为更广泛机器人与具身AI平台的一部分,与Optimus人形机器人项目深度协同。 Tesla在丹佛传递的核心信息是,纯视觉路线已经超越了技术选择的范畴,更像一种信仰。 ▎Apple(Booth 231):安静的颠覆者Apple以赞助商身份参加CVPR 2026,设有展位并带来多篇论文与特邀演讲。
重点研究包括视频生成模型STARFlow-V、视觉统一分词器AToken、4D几何外观表征Velox等。 Apple的展台风格一如既往地低调,但研究却不容小觑。 AToken试图统一视觉理解与生成的底层表征,Velox则指向4D动态场景理解,这些方向与D4RT、SAM 3D的获奖论文形成了有趣的呼应。 Apple的“慢而稳”策略,在NVIDIA和Tesla的“快而猛”之间,提供了一种截然不同的技术路线参照。 04深层趋势:CVPR从“让人看懂图像”走向“让机器人看懂世界”综合5篇获奖论文、Simon Kohl的演讲和三大展台的信号,CVPR 2026传递的最深层趋势可以概括为一句话:计算机视觉正在经历从“被动感知”到“主动理解与行动”的范式转移。 ▎趋势一:多模态与具身智能成为绝对主线。 视觉-语言与多模态LLM论文占比从去年的4. 9%飙升至10. 6%,增幅达5. 7个百分点,这是CVPR近年来单一类别最大幅度的增长。 5篇获奖论文中至少3篇与具身智能直接相关,展台上超过100家公司中相当比例在展示物理AI方案。 具身智能已经从“分会场议题”升级为主线剧情。 ▎趋势二:视觉架构正从“识别像素”走向“重建世界”。
D4RT重建4D动态场景,SAM 3D从单图重建3D世界,CLAY用4B参数生成3D资产,这些工作的共性在于:视觉系统已经不再满足于“识别”和“分类”,开始试图从2D输入中重建完整的3D/4D世界表征。 未来的视觉架构将更关注空间理解而非像素识别。 ▎趋势三:感知问题正被基础模型统一解决,重心上移至认知层。 D4RT解决动态感知,SAM 3D解决空间感知,NitroGen解决行动策略。 研究者的重心正从“如何让机器人看见”转向“如何让机器人理解它看到的东西”,从感知层上升到认知层。 这也是为什么Simon Kohl的演讲在CVPR的舞台上如此引人注目:当视觉模型足够强大,下一个前沿就是“理解”与“决策”。 ▎趋势四:中国力量从“参会”走向“设局”。 在CVPR 2026高校论文接收Top 10中,中国高校占据八席:上海交通大学以46篇高居榜首,浙江大学40篇紧随其后。 在产业端,腾讯拿下最高级别Ultimate Sponsor,MiniMax跻身白金赞助商,苏度科技、Linkerbot等具身智能新锐集体亮相。
更值得注意的是,在GigaBrain Challenge 2026中,中国团队在四个赛道包揽全部冠军,这在CVPR历史上极为罕见。 中国企业已从“底层代工”升级为“软硬一体全栈AI产业链”。 回到标题的问题:计算机视觉下一个十年的答案是什么? CVPR这5篇论文、1个演讲、3个展台的回应汇聚成一句话:视觉的终点不是看见,而是理解、行动、改变物理世界。 下一个十年,这一页已经被翻开了。 去哪看 CVPR 核心【演讲/论文】详解? 为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 CVPR 2026 的完整干货,雷峰网已全面上线【CVPR 2026 深度专区】。 专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲,更将持续更新前方记者的第一手会议动态。 扫描下方二维码,或点击「阅读原文」关注专区。 与全球 8000 名顶尖大脑同步呼吸,抢先透视具身智能的下一个五年
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.
More from 雷峰网 AI
See more →
从诺奖项目到生成式药物设计,Latent Labs 创始人 Simon Kohl:AI 正在让生物学进入「可编程时代」 | CVPR 2026
Simon Kohl, CEO of Latent Labs, presented at CVPR 2026, highlighting how generative AI, including models like Latent-X1 and Latent-Y, is revolutionizing drug design by drastically reducing development times and costs, achieving up to 90% success rates compared to traditional methods. The transition from AlphaFold 2's structural predictions to autonomous design agents marks a pivotal shift towards programmable biology.

