
北交大 x 小米 EV 团队:一次关于世界模型「靠不靠谱」的系统复盘
Quick Take
A collaborative study by Beijing Jiaotong University and Xiaomi's autonomous driving team critiques the reliability of world models in real driving scenarios, revealing that improvements in visual prediction metrics do not translate to enhanced system robustness. The research emphasizes the need for a unified evaluation framework to accurately assess model performance in complex environments.
Key Points
- World models show progress in visual prediction but lack real-world robustness.
- Current evaluation metrics fail to capture essential robustness dimensions.
- Open-loop performance does not reliably predict closed-loop system safety.
- Structured spatial modeling yields better stability than purely generative methods.
- Future breakthroughs may stem from improved experimental designs rather than complex models.
Article Content
From source RSS / original summary在自动驾驶研究不断向世界模型演进的过程中,一个长期被回避却无法忽视的问题正逐渐凸显:模型在论文中的性能提升,是否真的对应着系统在真实驾驶环境中的鲁棒性提升? 过去数年中,大量工作通过更复杂的生成结构、更精细的预测目标和更先进的训练策略,使世界模型在视觉预测与场景生成指标上取得了显著进展。 然而,在工程实践中,这些看起来 reminder 的模型,往往并不能稳定支撑长期决策、复杂交互和安全约束并存的真实驾驶系统。 问题并不完全出在模型本身,而更深层地指向了实验范式与评测目标的错位:我们究竟在通过实验验证什么? 是模型是否预测得更像,还是系统是否运行得更稳? 在缺乏统一任务定义、系统级闭环验证和可信评测标准的前提下,世界模型的能力边界正在被系统性高估。 正是在这一背景下,北京交通大学研究团队联合小米汽车自动驾驶与具身智能算法团队,在论文《Progressive Robustness-Aware World Models in Autonomous Driving: A Review and Outlook》中,对自动驾驶世界模型进行了不同于传统综述的系统性审视。
这项工作并未提出新的模型或算法,而是基于大量已有实验结果,重构了一套以鲁棒性为核心变量的分析框架,从生成评测、结构化空间建模、规划验证到系统级闭环行为,逐层揭示了当前世界模型研究中被忽视的关键断层,并明确指出哪些结论是被实验真正支持的,哪些则仍停留在指标幻觉之中。 论文地址:https://doi. org/10. 36227/techrxiv. 176523308. 84756413/v1基于既有实验结果的系统性观察如果将这篇论文视作一次严格意义上的实验研究,那么它的实验结果并不是某个模型在某个指标上的提升,而是一组关于整个自动驾驶世界模型研究方向有效性与局限性的实证性结论。 这些结论来自对大量已有实验结果的系统重组,而非主观推断。 首先,在最基础的层面,论文通过对近年来生成式世界模型实验结果的系统梳理,确认了一个表面上乐观、但内在矛盾的事实:自动驾驶世界模型在视觉预测、场景生成等任务上的定量指标确实在持续进步,但这种进步并未线性转化为对驾驶安全或系统稳定性的可靠提升。 具体来说,图像与视频预测类实验显示,多数方法在诸如 FID、FVD 这类统计分布相似性指标上已经达到了相当成熟的水平。
一些模型生成的未来帧在视觉质量上甚至难以与真实数据区分。 这一实验现象在不同论文、不同数据集上反复出现,因此并非偶然。 然而,当这些结果被进一步放置到时间序列维度进行审视时,问题开始显现。 实验结果显示,许多模型在短期预测窗口内表现稳定,但随着预测时间延长,场景结构、目标位置和运动轨迹逐渐偏离合理范围。 这种偏离往往不会在传统生成指标中被显式惩罚,却在真实驾驶中对应着潜在的碰撞风险、规则违反或不可恢复的系统失效。 雷峰网这一实验现象本身构成了论文的第一个关键结论:当前主流生成评测体系无法充分刻画自动驾驶所需的鲁棒性维度。 其次,当论文将分析重心转向点云与 Occupancy 表征相关实验结果时,出现了明显不同的趋势。 基于三维或四维空间表征的世界模型,在多个实验设置中表现出更强的一致性和稳定性。 无论是在空间重建精度,还是在为规划模块提供状态输入时,这类方法在多项公开基准上都展现出相对更可靠的性能。 这种优势并非来源于单一指标的极致优化,而是体现在多指标、多任务条件下的整体稳定性。 通过对比这些实验结果,论文实际上确认了第二个重要事实:鲁棒性更容易从结构化空间建模中涌现,而非从纯粹的感知级生成中涌现。
在规划相关实验中,论文进一步通过区分开环与闭环评测,揭示了世界模型能力评估中的一个长期混淆点。 在开环规划实验中,即仅评估模型在给定历史条件下预测未来状态的能力时,多项实验结果显示,世界模型在轨迹预测质量、环境理解一致性等方面已经接近甚至匹配部分强端到端系统。 这说明,从世界演化建模的角度看,世界模型已经具备相当程度的表达能力。 然而,当这些模型被嵌入闭环系统,在真实的决策链条中承担连续规划与控制职责时,它的能力边界便开始暴露。 系统不同于更为理想化的开环评测,它引入了反馈机制,模型的输出会直接影响环境状态,并作为新的输入重新回到系统之中,小幅的感知与预测偏差会在这种反馈中逐步累积与放大。 例如在 Bench2Drive 等闭环测评中,只有依赖专家信息的 Think2Drive 能够将综合驾驶得分提升至 92 分左右,而不使用专家信息的 Raw2Drive 得分仅为 71 分,多数使用世界模型方法的驾驶得分集中在 40-60 分之间,并伴随成功率与碰撞率的显著差异。 也正因如此,可以观察到一种稳定存在的能力断层:在开环指标上表现优秀的模型,并不必然在闭环仿真乃至真实系统中展现出同等水平的安全性与稳定性。
由此可见,开环和闭环系统并非简单的替代关系,而应被视作是互补的两个层级,即开环主要用于验证表示与预测的认知正确性,而闭环则用于检验长期交互中的行为稳健性。 或许未来的关键方向,不仅在于继续提升开环的预测精度,更在于能够构建一个能够有效衔接开环和闭环系统的训练体系,进而真正支撑系统及鲁棒性自动驾驶的实现。 雷峰网由此,论文在实验层面确认了第三个关键结论:开环性能并不能可靠预测闭环系统的安全性与稳定性。 在更高层级的实验归纳中,论文还总结了一系列系统性证据,表明世界模型在某些条件下确实能够为自动驾驶系统带来实质性收益。 这些证据并不集中于单一指标,而体现在可控生成、零样本泛化、跨任务迁移以及人类主观评估等多个实验维度上。 这些实验结果共同指向一个结论:当世界模型被用于增强系统整体能力,而非单一任务性能时,其价值才开始显现。 非传统实验范式的建立理解这篇论文的实验过程,关键在于认识到它采用的并非传统意义上的“训练—测试”实验范式,而是一种跨研究工作的实验重构方法。 作者并没有新增模型或数据,而是通过重新组织已有实验结果,构建了一套用于检验研究方向本身的实验逻辑。 在实验的第一阶段,作者关注的并不是模型能力,而是评测工具本身。
他们系统梳理了自动驾驶世界模型领域常用的数据集、仿真平台与评价指标,并分析这些工具在多大程度上能够反映真实驾驶需求。 通过对比不同论文的实验设置,作者发现:即使研究目标相似,不同工作之间的评测方式也往往高度异质。 这种异质性使得实验结果难以直接比较,也使得“性能提升”这一结论本身变得不稳定。 这一阶段的实验分析实际上是在对整个领域的实验基础设施进行审视,其隐含问题是:如果评测方式本身存在系统性盲区,那么基于这些评测得出的结论是否可靠? 在第二阶段,作者将实验分析的重点从评测工具转向系统行为。 他们不再试图回答“哪个模型更好”,而是试图回答“哪些实验结果在系统层面仍然成立”。 为此,论文系统整理了涉及可控生成、零样本泛化和跨任务迁移的实验工作。 这些实验往往难以严格控制变量,但正因如此,更接近真实工程环境。 通过比较这些实验结果,作者发现:某些在单一任务中并不占优的方法,在系统级实验中反而表现出更高的稳定性;而一些在生成指标上表现突出的模型,在系统集成后却难以维持性能。 这种反差本身构成了一种实验发现,迫使研究者重新思考性能评估的目标。 至于第三阶段,论文并未给出完整实验结果,而是明确指出当前实验体系的缺失。
这并非实验不足,而是作者基于前两阶段实验分析后得出的理性判断:在缺乏统一任务定义、可解释性评测和可信闭环仿真之前,任何关于“开放世界鲁棒性”的结论都缺乏实验支撑。 重新定义「值得被验证」的实验目标从实验意义上看,这篇论文的价值并不在于它总结了多少工作,而在于它通过实验性分析改变了“什么值得被实验验证”的标准。 首先,它在实验层面否定了一种隐含但普遍存在的假设,即认为只要生成或预测性能不断提升,系统鲁棒性就会自然改善。 通过对大量实验结果的系统分析,论文清楚地表明,这种假设在自动驾驶场景下并不成立。 鲁棒性并不会自动从局部性能优化中涌现。 其次,这篇论文通过实验拆解,强调了系统级评测的重要性。 它表明,真正有意义的实验不应只关注模型在孤立任务中的表现,而应关注模型在复杂系统中的行为。 这一观点对研究范式具有直接约束力:它要求研究者在设计实验时,必须明确自己所验证的鲁棒性层级。 更深层的意义在于,这篇论文将自动驾驶世界模型的研究问题,从“模型是否足够强”转变为“实验是否足够真实”。 这意味着,未来的关键突破不一定来自更复杂的网络结构,而可能来自更合理的实验设计与评测体系。
一支把鲁棒性「讲透」的团队贾飞阳为本文第一作者,现为北京交通大学计算机科学与技术专业博士研究生,研究方向包括自动驾驶三维目标检测、端到端自动驾驶以及自动驾驶世界模型等。 贾彩燕为本文通讯作者之一,现任北京交通大学计算机与信息技术学院教授,并担任交通数据分析与挖掘北京市重点实验室副主任。 其主要研究方向包括机器学习模型(尤其是图神经网络)、虚假信息检测、大模型生成内容检测与可信计算、推荐算法,以及自动驾驶场景下的多模态融合目标检测与大模型泛化研究等。 近年来已在国内外学术期刊和国际会议上发表论文80余篇,主持国家自然科学基金面上项目两项、国家自然科学基金青年基金项目一项,并主持国家重点研发计划“新一代人工智能”专项子课题一项。
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.
More from 雷峰网 AI 学术
See more →万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
DeepSeek's innovative use of large-scale reinforcement learning (RL) over traditional supervised fine-tuning (SFT) significantly enhances model reasoning capabilities, as discussed at AIR 2025 by researchers from institutions like UCL and CMU. Key findings include the effectiveness of preference fine-tuning and the introduction of the Goedel-Prover model for formal mathematical proofs, achieving state-of-the-art performance.

