万字长文实录:RL 界与 CV 界的“世界模型”有什么不同?丨GAIR Live
Quick Take
The GAIR Live roundtable discussed the differences in world models between reinforcement learning and computer vision, emphasizing the need for integrating physical laws into embodied intelligence. Key insights included the importance of causal relationships and the challenges of 2D versus 3D modeling in AI applications like autonomous driving.
Key Points
- World models are crucial for AI, enabling agents to understand complex environments.
- Experts discussed integrating physical laws into models for better performance in embodied intelligence.
- Causal relationships are vital for decision-making in AI systems.
- Challenges remain in balancing 2D and 3D modeling for tasks like autonomous driving.
- The roundtable highlighted the need for a broader definition of world models in AI.
Article Content
From source RSS / original summary世界模型在人工智能领域中扮演着重要角色,能够有效为智能体提供对复杂现实世界的内在表征,使其像人类一样理解世界运行的逻辑与因果关系,对自动驾驶、具身智能的突破性发展至关重要,它已成为学术界和工业界的研究热点。 2015年8月5日,雷峰网、AI 科技评论 GAIR Live 品牌举办了一场主题为“世界模型——通向通用智能的关键拼图”的线上圆桌沙龙。 圆桌主持人为清华大学智能产业研究院(AIR)助理教授、智源学者赵昊,并邀请了宁波东方理工大学助理教授金鑫、浙江大学特聘研究员廖依伊、布里斯托大学助理教授杨梦月、伯克利人工智能实验室博士后研究员郑文钊一起进行了一场深度的讨论。 会上主持人赵昊带头讨论世界模型,先是探讨其定义、范围,接着分析强化学习界与计算机视觉界的世界模型的不同,随后围绕视频生成、三维重建等内容,剖析通用视频生成模型向真正的世界模型的发展路径,最后关注于落地场景,聚焦于自动驾驶以及具身智能,并探讨构建其世界模型的难点和方向。
其中,四位嘉宾围绕具身智能世界模型的构建分别提出了自己的独到见解: 郑文钊认为具身智能的问题与自动驾驶相似,未来应该实现重建与生成的结合、提升三维建模精度,以及更精准地判断因果性,使因果性与物理规律更好契合,但由于具身智能的数据稀缺,纯数据驱动很难训练出符合物理规律的世界模型,因此需要更好地建模物理规律,甚至将其“注入”模型。 除了“真实到仿真再到真实”的路径,更优的方向可能是数据驱动与物理规律结合——探索如何通过某种方式将物理规律注入数据驱动模型,这可能是未来的趋势。 金鑫也表示物理规律、物理真实性(physical world intelligence)对具身智能的世界模型很重要,探索方向不仅依赖数据驱动,还借鉴了传统仿真领域的经验,结合图形学中的物理建模方法(如杨氏模量、弹簧 - 质量模型等基于规则的物理仿真)与数据驱动的生成模型(如AIGC生成模型),希望让具身智能的世界模型既能保证物理真实性,又能实现外观真实。 杨梦月则提出了她自己的思路,在具身场景中,通过某种机制或智能体捕捉物理规律,将其整合成因果模型,再利用该模型进行反事实预测或推断。
最后廖依伊对金鑫和郑文钊的观点表示赞同,还发出了路线选择的疑问,她认为核心问题在于:是否必须显式建模3D? 在2D层面能否学好交互? 若有足够训练数据,2D学习交互可能更简单——比如叠衣服、泥巴落地等非刚性物体场景,在3D中建模难度极大。 如何做好2D与3D的结合,仍是难题。 以下是此次圆桌讨论的精彩分享,AI 科技评论进行了不改原意的编辑整理:一、如何定义世界模型? 赵昊:大家好,欢迎来到本次线上研讨会。 我们将围绕“世界模型——通向通用智能的关键拼图”这一主题展开讨论。 我是赵昊,此前曾在北京大学和英特尔研究院工作,目前任职于清华大学智能产业研究院(AIR),主要从事计算机视觉、图形学与机器人的交叉研究。 世界模型作为串联这些领域的核心技术,我对其始终秉持坚定的信念。 在正式开始前,我想先界定一下世界模型的范畴。 从最狭义的角度来看,是自动驾驶领域的世界模型,这也是目前研究较多的方向;进一步拓展,则是具身智能的世界模型;再往上,第三层可涵盖通用视频生成或传感器生成模型;而最广义的层面,我认为是训练智能体的世界模型。
今天参与讨论的几位老师虽多来自计算机视觉领域,但考虑到AI科技评论的广泛视野,我们的讨论范围应当进一步扩大。 尽管部分领域,如自然语言处理(NLP)、智能体(Agent)等,我个人并非深耕其中,但既然举办此次线上研讨会,就应当拓展讨论边界,最终聚焦到第四层级的核心议题——通用智能如何在世界模型中诞生。 当然,考虑到今天受邀的几位老师多具备计算机视觉(CV)背景,我们的讨论可以从自动驾驶领域切入,再逐步向外延伸。 毕竟不同领域的科学原理在本质上存在共通之处。 金鑫:谢谢赵老师的开场。 大家好,我是金鑫,目前任职于宁波东方理工大学信息学部。 宁波东方理工大学是一所新型研究型大学,目前正在全球范围内广纳贤才。 我是中国科学技术大学博士,研究方向包括空间智能及世界模型相关工作,一直与赵老师团队合作推进自动驾驶相关研究,涉及基于 Occupancy-based 的生成等方向等等。 廖依伊:大家好,我是浙江大学特聘研究员廖依伊。
我的求学和工作经历如下:我在浙江大学获得博士学位,在德国马普所从事博士后研究,所在组是搭建KITTI数据集的Autonomous Vision Group,在组里期间我主导了KITTI-360数据集的构建工作,所以开始涉足自动驾驶相关研究。 围绕世界模型的方案,我们做了街景重建与生成。 我们近期研发的HUGSIM是一款基于3D高斯的仿真器,能够与自动驾驶算法实现互动。 正如赵老师所说,这属于狭义的世界模型研究。 今天非常期待能与各位老师探讨,从狭义到广义的世界模型发展。 杨梦月:我是杨梦月,去年10月加入布里斯托大学担任助理教授,之前在UCL攻读博士学位,导师是汪军教授。 我的研究方向最初是因果表征学习,后来结合强化学习(RL)相关内容,近期转向世界模型研究,尤其聚焦于世界模型对世界规则的理解。 我的研究方向可能不太偏向CV,更多侧重于因果理解和表征学习。 郑文钊:我是郑文钊,目前在伯克利人工智能实验室从事博士后研究。 我本科和博士均毕业于清华大学,本科就读于物理系。 博士期间,我主要从事相似性度量等基础研究,后期也涉足自动驾驶领域。 我们始终坚持基于世界模型的自动驾驶,之后也会将世界模型拓展至更通用的智能领。
赵昊:接下来我们正式进入讨论环节。 开头的这两个话题,我想把我们讨论的世界模型的Scope变得更大一点。 刚刚结束的智源大会也让我学到了很多新知识。 我个人主要是做 CV 的,CV 领域长期以来的观点是通过重建物理世界、再做仿真和渲染来构建世界模型,但在这次大会上,许多 senior 学者从更抽象的角度看待世界模型,将其视为通向通用智能的关键拼图。 尽管我们可能从自动驾驶汽车、机器人的角度出发,但第一部分,我想从更通用的人工智能角度来思考这个问题。 GPT为代表的LLM无疑是当前人工智能领域的典范,但它也面临一些问题。 首先是数据短缺, 数据耗尽后GPT的发展可能会停滞;其次,GPT距离通用智能还有差距,它存在一些无法完成的任务。 在智源大会上,我发现许多通用人工智能研究者也在关注世界模型,尽管他们心中的世界模型可能与我们 CV 领域狭义的虚拟世界模型不同,但他们都畅想,未来像GPT这样的Agent能够在真实物理世界中不断探索学习,从而实现通用人工智能。 这是一个bigger scope。 我们可以将范围稍作限制,聚焦于LeCun团队的世界模型研究,如JEPA、V-JEPA等,这些研究更grounded,方便我们展开讨论。
经常有人问我,CV 所做的视频生成、三维重建等世界模型,与LeCun所说的通用世界模型有何区别与联系。 二者确实存在较大差异。 了解LeCun学术流派的人知道,他创办ICLR会议的核心关注点是表征学习。 他所研究的世界模型更多是一种能够表达和预测世界的通用表征思路,这种思路也更易被不具备太多三维视觉知识的通用人工智能研究者所理解。 所以,我想从最宽泛的表征学习视角出发,听听大家的看法。 我随机点一位,有请杨老师。 杨梦月:我一直从事表征学习相关研究。 在我看来,CV 与表征学习之间存在gap。 表征学习的本质是理解图像或视频背后的构成的factor。 图像和视频是高维空间的表现,而控制这种表现的其实是低维feature space(特征空间)中的特征。 我们可以有多种方式来表示特征空间,例如大模型的embedding(嵌入)是一种表现;我们也可以将特征空间完全可解释化,明确某个具体嵌入所对应的物理概念和语义含义。 当前大模型的训练方式本质上是对数据的模仿,并不关注表征学习层面,因此可能仅学到数据表面的样子,容易出现“幻觉”问题,无法真正理解世界正在发生的事情,也不清楚自身行为及其可能导致的结果。
表征学习更偏向于可解释的范畴。 也就是说,我们希望Agent是真正理解世界背后的规则,——这个世界由哪些factor构成,这些factor之间又存在怎样的关系。 一旦理解了这些,智能体在做决策时,就不会仅仅基于像素级的图像进行预测并以此决策,而是通过理解事件背后的逻辑来行动。 例如,知晓两个因素之间的关联:当机械臂要将小球运到终点时,有两种选择——推球或者抓球。 若它掌握了物理规则,就会知道当地面摩擦力较高时,推球并非最佳选择,转而选择抓起小球直接送至终点,从而达成目标状态。 世界模型的定义一直较为模糊,视频生成、VLA乃至空间智能等相关技术都被笼统地归为世界模型范畴。 但现在越来越多的研究者认为,若要让智能体真正具备决策能力,必须让它理解世界的运行逻辑,否则决策可能因“幻觉”失效,尤其在高安全性场景中,看似无害的动作可能导致一些比较危险的状态。 因此,要实现通用智能、让智能体理解世界,还是要走表征学习的路子。 表征学习包含多种技术,我们所研究的因果分析便是其中之一。 这种技术不仅关注factor间的相关关系,更着重探究因果关系,而掌握因果关系能帮助智能体做出更优决策。 以上就是我的观点。
赵昊:杨老师的观点很有意思,即当前的表征可能只有correlation,而缺乏因果关系,这确实是值得深入研究的方向。 那么,杨老师认为完整的三维或四维世界表示作为一种factor表示方式,是否是必需的呢? 杨梦月:我认为构建3D或4D表示是一种新视角,对帮助到智能体理解世界,但它们之间的联系还需进一步探索,目前这方面的研究还比较匮乏。 在世界模型层面,我们通常对其有明确的界定标准。 普通的预测模型(比如视频生成过程)往往是基于当前状态预测下一个状态,而世界模型要有智能体交互的属性。 具体来说,能被统称为世界模型的模型,其逻辑应该是“当前状态 + 智能体动作”通过模型函数映射到“下一状态”。 这里的动作既可以是显性的,也可以是隐性的,关键是模型要能明确回答“当前采取某动作后,下一步会呈现什么状态”。 按照这个定义,当前的 3D、4D 生成技术虽然实现了对世界的重建,但尚未充分融入动作因素,也没有考虑到动作对空间内部各因素相互作用的影响,因此与严格意义上的世界模型仍有差距。 当然,目前世界模型的定义还比较宽泛,但如果要进一步明确其核心内涵,就必须在模型中构建交互层面的建模,这是不可或缺的关键环节。 赵昊:我完全同意。
我们CV领域的研究者常常关注传感器数据的渲染质量,却不太重视交互输入,这是我们领域存在的一个较大问题。 不过,目前在自动驾驶和机器人领域,已有不少视觉模型研究引入了动作因素。 听到杨老师的观点,她认为我们当前研究的最大问题是缺乏动作因素,我自己也意识到了这一点。 我也分享一个观点:我们真的必须依赖3D表征吗? 看起来3D表征并非在所有场景下都是必需的,比如我们根据牛顿定律建模了以后,模型就可以根据物理规律来运行输出,这就不需要表征学习。 但是物理规律也可能失效,比如现在有了极限情况,你必须引入相对论来修正。 我们计算机视觉和图形学领域的研究者可能存在一种幻觉,认为只要重建并仿真世界,就能完全掌握其规律,但物理模型永远不可能达到完美。 所以从宏观意义上看,或许完全数据驱动的表征学习反而是更正确的路径。 这一点我想听听郑文钊的看法,因为我知道他有些论文仅在占用率(occupancy)层面开展研究,不会对传感器数据进行真实渲染。 郑文钊:谢谢赵老师。 我接着刚才的话题谈谈我的观点。 如前所述,狭义的世界模型是对环境的建模,核心是接收智能体的交互动作作为输入,并输出对应的反馈。
我们早期基于占用率的世界模型研究中就引入了action,当时我们认为世界模型不仅要对行为做出反馈,还应输出动作,因此在论文中将其定义为“泛化的世界模型”,但这一观点在审稿人中存在争议。 直到现在,大家对世界模型的定义仍有分歧:它仅仅是对世界环境的建模并提供反馈,还是需要包含对世界运行规律的自主建模? 但我认为,若要迈向通用智能,世界模型的定义必须更泛化一些。 这也是我认同LeCun观点的原因,他所强调的世界模型偏向通用范畴。 从LeCun对智能系统的描述来看,其中包含世界模型、记忆模块、行为模块等,分别对应空间智能、行为智能等能力,可见世界模型在通用智能中扮演着重要角色。 尽管存在争议,但从宏观角度而言,我们的核心目标是结合动作对环境进行建模。 接下来我想谈谈世界模型与表征的关系:世界模型在某种程度上是更具泛化性的语言模型。 大语言模型的核心范式是next token prediction,当然现在有一些不同的语言模型并非采用这种范式。 语言并不是数据驱动学习到的表征方式,它是人类通过数千年文化历史凝练而成的对世界的描述,是人类定义好的认知框架。 从这个角度来看,语言模型其实也是在预测未来会发生什么。
除了语言之外,是否存在其他更完备、更细节的世界表征方式? 这也是我认为世界模型能成为比大语言模型更通用的基础模型的原因——如果CV领域未来会出现类似大语言模型的核心模型,其形态很可能是世界模型,而其中最核心的就是表征的选择。 在NLP中,表征选择很直接,就是语言本身。 但在视觉领域或更通用的场景中,表征选择需要更深入的考量:可以选择像素,但像素仅能反映二维空间信息;我们之前的研究选择占用率作为表征,因为世界本质是三维的,可以称为三维空间中的“像素”,类似于体素(Voxel),能更底层地描述三维空间。 不过,是否存在更高层次的表征? 这也是LeCun团队的研究方向。 我推测他们可能认为仅在像素空间建模不够完善,更倾向于类似大语言模型选择语言模态的思路——在视觉领域选择更合适的表征。 例如JEPA、V-JEPA通过自监督学习提取特征,而他们最近发布的DINO-World,则选择DINO作为世界表征,因为DINO本身已包含对世界的语义提取。 这些思路的共性是:世界模型的表征未必局限于像素,完全可以是更高层次的feature。 因此,若要将大语言模型的范式泛化至通用智能,世界模型是核心路径,而表征选择是关键。
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.
More from 雷峰网 AI 学术
See more →万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
DeepSeek's innovative use of large-scale reinforcement learning (RL) over traditional supervised fine-tuning (SFT) significantly enhances model reasoning capabilities, as discussed at AIR 2025 by researchers from institutions like UCL and CMU. Key findings include the effectiveness of preference fine-tuning and the introduction of the Goedel-Prover model for formal mathematical proofs, achieving state-of-the-art performance.

