寻找 AI 的「第三语言」:中间表示如何打通多模态鸿沟 | CVPR 2026
Quick Take
Research proposes 'third language' as intermediate representation to bridge multimodal gaps in AI.
Key Points
- ORV uses occupancy for robot video generation.
- DGGT decouples camera pose from 4D scene reconstruction.
- PAM introduces a three-level translation chain for video prediction.
Article Content
From source RSS / original summary“请把杯子拿起来”。 这句话对你来说轻而易举。 因为你看到了杯子,理解了“拿起来”的含义,手自然地伸过去、捏住、提起。 但对一个 AI 系统来说,这中间隔着数道几乎不可逾越的鸿沟:语言到动作、动作到视觉、视觉到空间、空间到执行。 传统做法是强迫模型学会直接映射,通过输入一段文字或一组动作参数,让其直接输出像素级的视频帧或关节角度。 这种方法在受限环境和充足标注数据下勉强可行,但一旦面对真实世界的复杂性,系统就会崩溃,因为鸿沟太宽,直接跨越注定失败。 清华大学智能产业研究院赵昊团队在 CVPR 2026 发表的四篇论文,共享着同一个设计哲学:当两种模态之间的鸿沟太大,真正的解法是为它们搭桥,找到一种“第三语言”。 这个“第三语言”,就是中间表示。 这四篇论文分别从动作到视频、图像到 4D 场景、首帧到未来视频、异构硬件到统一策略四个不同的角度,验证了同一个核心假设:引入合适的中间表示,比强迫模型学会直接映射更有效。 01ORV:当机器人看视频时,它在看什么? 机器人学习领域有一个看似简单却长期未能很好解决的问题:如何让机器人通过观看人类操作视频来学习新技能? 这个问题的困难程度远超想象。
对人类来说直观的东西,对机器人来说却是无法理解的数据流,因为视频是一帧帧像素,动作是七维或更高维的连续控制信号,这两种表示之间存在巨大的“表征鸿沟”。 现有的机器人视频生成方法通常采用端到端的方式:输入动作序列,直接输出对应的视频帧。 这种做法在实践中面临两个根本性问题:动作空间和像素空间的结构差异太大,动作是低维的连续向量,像素是高维的离散网格,强行让模型学习从前者到后者的直接映射,就像让一个只会说中文的人直接听懂法语,中间没有任何翻译。 缺乏结构化约束:生成的视频往往在多视角一致性上表现糟糕。 同一个动作从两个不同视角看,本应是同一个 3D 事件的不同投影,但端到端模型经常会生成两个视角下完全不一致的像素。 这个问题背后有一个更深层的原因:人类在理解动作时,是在一个抽象的 3D 空间表示中进行思考,而不是通过和机器人一样通过像素去构造世界。 当你看到一只手伸向杯子,你脑中构建的是一个 3D 的“手——杯关系”,如果机器人也能在这个 3D 空间表示中进行推理,那么它对动作的理解将会深刻得多。 ORV(Occupancy-centric Robot Video Generation)正是从这个洞察出发的。
它的核心思路是:在动作空间和像素空间之间,插入 Occupancy 作为中间表示,让动作先变成 4D Occupancy,再从 Occupancy 渲染成视频。 什么是 Occupancy? 它是一个结构化的 3D 表示,通过在空间中的每个体素上标记“是否被占据”,来实现对场景几何的紧凑描述。 当动作被转换成增加了时间维度的 4D Occupancy 序列,动作的空间含义就被显式地表达了出来。 此时的逻辑从抽象的“关节角度变化了这么多”转变为具象的“手在 3D 空间中移动到了这里,与物体发生了这样的交互”。 同时,Occupancy 天然地解决了多视角一致性的问题:一旦拥有了 4D Occupancy,从任意视角渲染出对应的视频帧就变成了一个确定性的投影问题,从不同视角投影出的视频自然高度一致。 ORV 框架ORV 的技术实现分为两个阶段。 第一阶段是 Action-to-Occupancy 映射:给定一个机器人动作序列,训练一个条件扩散模型,将其转换成未来若干帧的 4D Occupancy 序列。
第二阶段是 Occupancy-to-Video 渲染:利用可微分的体素渲染技术,将 4D Occupancy 序列从指定相机视角渲染成 2D 视频帧。 两步映射,每一步的鸿沟都比直接从动作到视频窄得多。 这个设计的价值很快在实验中得到了验证。 ORV 在多个标准机器人视频生成 benchmark 上进行了评估,结果显示它在 FVD(Fréchet Video Distance)上比最强的端到端基线降低了 18. 8%,生成的视频在视觉质量和时间一致性上都显著更优。 更有说服力的是,当把这些生成的视频用于训练机器人策略时,ORV 生成的视频帮助策略在真实机器人任务上取得了 +6. 4% 的成功率提升。 这 6. 4% 的飞跃,本质上验证了“第三语言”假设:更好的中间表示能带来更高的生成质量,并让生成的数据对下游任务更有价值。 ORV 训练数据集整理流程由于在 Occupancy 空间中进行推理,ORV 学到的动作-Occupancy 映射在一定程度上是物理真实的,且不依赖于特定的视觉纹理。 这使得它能够在仿真环境中训练,并直接在真实机器人上生成视频,实现了 Sim-to-Real 的跨域迁移。
而 Occupancy 作为可解释的结构化表示,其生成的序列可以被人类直接观察和理解,这对于机器人学习系统的调试和安全验证至关重要。 从更广阔的视角看,ORV 揭示了一个在多模态 AI 中具有普适性的设计原则:当你试图在两个差异巨大的模态之间建立映射时,不要强迫模型直接消化,而是为它们找到一种中间表示,让映射分两步走。 这个原则,正是后续几篇论文共同的方法论基础。 论文链接:https://arxiv. org/abs/2506. 0307902DGGT: 无需姿态的动态场景重建从 NeRF 到 3D Gaussian Splatting,从单目深度估计到多视角立体视觉,3D 和 4D 重建在近年取得了令人瞩目的进展。 但几乎所有方法都在默默接受一个假设:你必须知道相机的位姿。 这个假设在受控环境下是合理的,你可以预先标定好相机,或者用 COLMAP 等工具从输入图像中估计位姿。 但一旦离开受控环境,在动态场景、弱纹理区域或相机快速运动时,位姿估计的误差就会直接传递到最终的重建结果中。 这主要是因为位姿估计和场景重建是两个分离的步骤,前者的误差无法被后者纠正,从而导致误差累积。
但类比人类的视觉,我们在看一组图片时,即使不知道精确的相机位姿,也能理解场景的 3D 结构。 由此可见,相机位姿或许并不是 4D 重建的必要条件,它只是技术实现中的一个“便利假设”:它强行把“场景内容”和“观察视角”捆绑在了一起,而这两者其实是可分离的信息。 DGGT(Dynamic Gaussian Graph Transformer)做了一个大胆的事情——把相机位姿从“输入”变成了“输出”。 它提出了一个端到端的框架,输入一组无关联的图像,可以是单目视频,也可以是多视角图像,甚至可以是完全无序的图像集合;输出两个东西:场景的 4D 动态表示,以及每张输入图像对应的相机位姿。 这个设计让模型在学会重建场景的同时,自己推断出每张图像是从哪个视角拍摄的。 这听起来像是一个“不知道位姿就没法重建,不知道重建就没法估计位姿”的恶性循环,但 DGGT 通过 Transformer 架构的全局注意力机制,实现了位姿推断和场景重建的相互迭代优化。 整体架构图DGGT 的核心表示是 Gaussian Map。 每个场景被表示为一组包含位置、协方差、颜色、不透明度以及时间维度动态变化的 4D Gaussian 参数。
作为一种显式的 3D 表示,它不像 NeRF 的隐式表示那样需要体积渲染;它不仅可微、可端到端训练,而且非常高效。 最重要的是,它是与相机位姿解耦的。 一旦拥有了 Gaussian Map 作为场景的 4D 表示,相机位姿的估计就简化为了一个对齐问题:通过调整相机位姿,使得从当前位姿渲染出的视图与输入图像最匹配。 渲染、比较、调整位姿、调整 Gaussian Map,整个过程循环迭代,端到端地进行。 DGGT 是成为首个真正实现无位姿 4D 重建的方法之一。 此前的 pose-free 方法大多局限于静态 3D 重建且需要额外约束,而 DGGT 能够同时处理动态场景和未知位姿,且不需要任何位姿标注。 更令人印象深刻的是它的泛化能力:在 Waymo 数据集上训练的 DGGT,可以直接零样本迁移到 nuScenes 数据集上进行 4D 重建,LPIPS 降低了 61. 4%。 这个跨数据集的泛化能力,很大程度上得益于 Gaussian Map 作为与位姿解耦的中间表示。 DGGT 的另一个精巧设计是“Lifespan Head”。
在 4D 动态场景中,不同的 Gaussian 有不同的“生命周期”:墙壁和地板在整个时间序列中都存在,而移动的车辆和行人只在某些时间帧中出现。 Lifespan Head 的作用就是预测每个 Gaussian 的出现和消失时间。 论文的消融实验显示,去掉该模块会导致 PSNR(峰值信噪比)下降 3. 2 dB。 这再次验证了中间表示的力量:引入一个专门的中间预测目标,如每个 Gaussian 的生命周期,模型能学会更好的 4D 场景动态建模。 在速度方面,传统 4D 重建方法通常需要数分钟到数小时来重建一个动态场景,而 DGGT 的前向传播只需要 0. 4 秒。 这种高效率意味着 DGGT 可以被部署在需要实时 4D 重建的应用场景中,例如自动驾驶的实时环境建模和机器人的实时场景理解。 只需0. 4 秒的前向传播DGGT 最深刻的启示在于:它挑战了“需要多少先验知识”这个根本问题。 在传统流程中,相机内参、外参、深度图或点云等先验知识就像拐杖,虽然让问题变得可解,但也让整个系统变得脆弱。 DGGT 的方向是扔掉这些拐杖,因为一个好的中间表示应该能够从数据中自己学会这些信息。
这个思想,与 ORV 的“Occupancy 作为中间表示”形成了有趣的呼应:ORV 用Occupancy 让动作和视频之间的鸿沟变窄了;DGGT 中,Gaussian Map 让图像和 4D 场景之间的鸿沟变窄了。 两篇论文虽然应用场景截然不同,但共享着同一个设计哲学——找到一个与输入/输出解耦的中间表示,让复杂的问题分解成两个简单的问题。 论文链接:https://arxiv. org/abs/2512. 0300403PAM:三级“翻译链”的精巧设计如果要让一个 AI 模型预测“接下来会发生什么”(例如给定一张起始帧图像和一系列动作,生成接下来若干帧的视频),那你将会面临一个由几何、外观、时序交织而成的巨大组合复杂性问题。 这个被称为“视频预测”的任务极其困难,因为这些因素在像素层面高度耦合。 现有的方法大致分为两类。 一类是端到端方法,直接用巨大的视频生成模型从起始帧+动作生成未来帧。
Sora、VideoPoet 等大模型是这类方法的代表,它们在生成质量上令人印象深刻,但计算成本极高,生成结果的可控性也差;另一类是解耦方法,试图把视频预测分解成几个子问题,可控性更好,但子问题之间的误差会累积,手工设计的解耦方式也往往不是最优的。 PAM(Pose-Appearance-Motion)走的是一条中间路线。 它设计了一个三级级联的“翻译链”,每一级解决一个相对简单的问题,每一级的输出作为下一级的输入。 第一级是 Pose(姿态)预测。 给定起始帧和动作序列,模型预测未来每一帧的“姿态表示”,这一级解决的是“东西会去哪”的问题,不涉及物体长什么样,只涉及它们的空间位置和姿态变化。 第二级是 Appearance(外观)迁移。 给定起始帧中的真实外观信息和第一级预测的姿态序列,模型将外观信息“迁移”到每一帧的姿态上。 这一级只解决“它长什么样”,不涉及运动轨迹。 个姿态上”。 第三级是 Motion(运动)精细化。 在前两级输出的基础上,模型对像素级的动态细节(如阴影变化、遮挡处理、纹理细节)进行雕琢,解决“它怎么动”的最终质感。 这个三级级联的设计有几个精妙之处。
首先,它成功分解了组合复杂性,分开处理姿态、外观、运动比混合处理要简单得多。 其次,每一级都变成了相对简单的映射问题,每一个局部映射的鸿沟都比直接端到端映射要窄得多。 第三,级联设计带来了极好的可控性,你可以独立地修改姿态、更换外观或微调运动细节,每一级的输出都做到了可解释、可编辑。 “三级级联”架构图PAM 的实验结果令人印象深刻。 在分辨率方面,此前的机器人视频预测方法受限于计算成本和模型容量,通常只能生成 256×256 分辨率的视频,这个分辨率对于实际应用来说太低了,PAM 将生成分辨率提升到 480×720,像素量是此前方法的 3. 3 倍到 4. 5 倍,这种提升得益于级联设计分摊了计算压力。 在质量上,其 FVD 相比最强基线降低了约 25%(从 38. 83 降至 29. 13),且推理速度不减。 但 PAM 最有说服力的实验在于对下游任务的赋能。 在机器人抓取任务的测试中,使用 50% 真实数据 + 50% PAM 合成数据训练的模型,达到了与 100% 真实数据训练相当的性能。 这标志着合成数据对下游任务的“可用性”终于跨过了临界点——从早期的“凑数”变成了真正“可用”。
使用不同比例真实数据的数据增强分析PAM 还实现了与所有现有方法的本质区别:零真实首帧依赖。 此前的视频预测方法都需要至少一帧真实的起始帧作为参考,而 PAM 通过将姿态、外观、运动三级完全解耦,使得即使在没有真实首帧的情况下(比如只有文字描述或者语义布局),也能生成合理的视频。 它把视频预测从一个“基于参考的渲染问题”提升到了一个“从结构化表示生成视频的问题”,大大扩展了应用范围。 PAM 最值得思考的地方在于它展示了“中间表示”可以串联成链。 ORV 中有一个中间表示(Occupancy),DGGT 中有一个中间表示(Gaussian Map),到了 PAM,中间表示变成了三个级联的表示(Pose → Appearance → Motion)。 这暗示了一个可能的通用设计模式:当一个直接映射的鸿沟仍然太宽时,可以尝试在中间插入多个级联的表示,让复杂性逐层分解。 这个模式在人类认知中也能找到对应,当你想象“接下来会发生什么”时,你并不是一次性地在脑海中渲染出完整的未来画面,而是先想“大概会发生什么”,再想“涉及的东西长什么样”,最后补充细节。 论文链接:https://arxiv. org/abs/2603.
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.


