
普渡大学Aniket Bera教授:可靠自主机器人的“安全阀”,藏在“可检查接口”里 | ICRA 2026
Quick Answer
This paper shows that Professor Aniket Bera from Purdue University emphasizes the need for 'Checkable Interfaces' in autonomous robots to ensure reliability in unstructured environments.
Quick Take
Professor Aniket Bera from Purdue University emphasizes the need for 'Checkable Interfaces' in autonomous robots to ensure reliability in unstructured environments. His framework advocates that learning should propose options while structured decision-making validates them, moving beyond simplistic environments to true autonomy.
Key Points
- Bera's framework: 'Learning proposes, Structure decides' enhances robot reliability.
- Checkable Interfaces allow formal verification of robot outputs.
- FastSLAM project improves pose estimation speed for real-time mapping.
- SELP transforms language models into constrained proposal mechanisms.
- Focus on human behavior modeling for safer robot interactions.
Article Content
From source RSS / original summary2026年6月2日,国际机器人与自动化会议(ICRA 2026)在奥地利维也纳进入第二天。 普渡大学(Purdue University)计算机科学系教授、IDEAS Lab实验室主任Aniket Bera发表了题为"RobotsSafe Navigation in Unstructured & Human-Centered Environments"(在非结构化与以人为中心环境中安全导航)的主题演讲,系统阐述了他对鲁棒自主机器人系统的一整套方法论。 他的核心论断直指当前自主系统研发中的结构性缺陷:今天绝大多数“成功”的自主系统,本质上是因为我们把世界变简单了,而不是机器人真正理解了世界。 工厂里的机械臂被围栏隔离、仓库中的AGV依赖地面标记、自动驾驶依赖高精地图——这些人为铺设的外部条件,本质上都是帮助系统起步的脚手架。 而真正的自主性,恰恰要求最终拆掉它们。 对此,他提出了贯穿其实验室研究的核心框架——“学习负责提议,结构负责决策”(Learning proposes, Structure decides)。
在这一范式下,任何学习型模块——无论是视觉感知还是大语言模型——都不应该直接输出最终控制指令,而是必须先通过一道“可检查接口”(Checkable Interface):这是一种可被形式化方法验证、由约束求解器审查的结构化输出。 这条原则贯穿了IDEAS实验室的四大支柱研究: 总结而言,Aniket Bera给出了一条清晰的路线图:学习赋予机器人灵活性,但结构赋予它们可靠性。 二者不是对立的技术路线,而是同一系统中不可分割的两面——而这正是将自主机器人从实验室"温室"推向真实"荒野"的必由之路。
以下是Aniket Bera在ICRA 2026大会发表的演讲精编稿,雷峰网·AI科技评论基于原英文演讲内容进行了不改原意的翻译编辑: 《Toivard Behaviorally-Intelligent RobotsSafe Navigation in Unstructured &Human-Centered Enironments》主讲人:Aniket Bera,普渡大学(Purdue University)计算机科学系,IDEAS实验室 一、成功的假象:我们不是在"造聪明机器人",而是在"造温室" 我是Aniket Bera,普渡大学计算机科学系的教授,领导IDEAS实验室。 我们实验室横跨机器人学、计算机视觉、机器学习和以人为中心的自主系统,共同的主线是:我们喜欢造智能的机器人。 具身系统如何感知这个混乱的世界? 如何推理人类和其他智能体的行为,同时在真实世界中实时执行安全的动作? 我先从一个“成功自主系统”的失效模式讲起。 我们把世界变简单了,以为这样机器人就好办了——给机械臂围上围栏,在仓库地板上贴标记,给车辆装高精地图,在工厂里写死固定脚本。
这些系统能工作,不是因为机器人真正理解环境,而是因为我们把环境精心设计成了机器人能应付的样子。 而我和我实验室关心的场景,恰恰是要拆掉这些脚手架。 机器人可能没有GPS,没有先验地图,没有稳定的工作流程——而一个错误动作的代价可能是实实在在的物理损失。 几周前我实验室就发生过一次,代价昂贵。 二、核心框架:学习负责提案,结构负责决策 正因如此,我把自主系统的问题框架化表述为:在语义约束、社交约束和安全约束下的闭环决策。 人们常问:你用的是传统经典机器人方法,还是基于学习的方法? 我认为这个问题本身就是错的。 真正有用的问题是——学习型模块向自主系统其余部分暴露的“接口”是什么? 感知模块不应该只输出特征向量,它应该输出物体、位姿、尺寸和不确定性。 同样,大语言模型不应该直接输出机器人的控制指令——它应该输出某种可以被监控、可以被约束求解器检查的东西。 这就是我所说的“可检查接口”(Checkable Interfaces)。 学习负责提出更丰富的表征、更丰富的候选方案;而结构负责决策哪些可以被信任、哪些需要被执行。 这就是我们实验室工作的底层逻辑。
三、感知:从"好看的地图"到"可用的状态" 在机器人能够推理或行动之前,它需要一个状态估计——这个状态必须是几何的、语义的、可定位的,并且对下游任务有用。 机器人需要持久化的物体表征、语义含义、不确定性——即一种可以被底层规划器查询的表示。 而最难的部分是:所有这些必须实时完成。 核心问题是:你的感知栈输出的是什么? 如果它输出的是原始像素或某种黑箱嵌入向量,整个系统栈的其余部分就无法做出安全论证。 反之,如果它输出的是一个类型化的状态(Typed State),那么规划和验证层就能真正使用它。 我们需要知道机器人在哪里、场景中有哪些物体、这些物体之间的关系是什么,以及所有这些估计有多不确定。 近年来,神经渲染领域(如3D高斯溅射)的工作为建图、定位和SLAM提供了强大的表示。 它能给出稠密、照片级真实、可连续优化的地图。 但这里有两个问题:第一,通过渲染-比较-优化光度误差来估计相机位姿的管线,对于像无人机这样需要快速闭环控制的场景来说太慢太脆弱;第二,一幅视觉上完美的高斯地图,并不自动等同于一个规划状态——它不包含物体身份、开放词汇语义,或校准过的不确定性。 我们的FastSLAM项目正是针对这个延迟问题。
我们把位姿估计问题从“渲染-优化”转变为“匹配-刚体注册”:将当前帧与活跃关键帧进行匹配,反投影得到两个3D点集,然后求解SE(3)上的最小二乘对齐——SVD解法直接从互协方差矩阵给出旋转量。 位姿变成一个快速的几何计算,而重建质量可以异步提升。 我们已经在搭载NVIDIA Jetson的无人机上部署了这个系统,在茂密森林中实现实时定位与建图。 沿着同样的思路,GoSLAM解决的是“如何让重建的物体具有可指称性和开放词汇语义”——让规划器可以通过物体名称查询地图,而不是只能通过像素坐标。 TransLocNet则解决“无GPS环境下如何将局部地图全局锚定”——通过将地面观测与航拍影像进行跨视角、跨季节的配准。 想象一下,森林里大雪纷飞,树叶落尽,而你的卫星图是夏天拍的。 这需要超越像素和坐标层面的表征理解。 所有这些不同的技术问题,被同一条主线缝合在一起:感知必须产出一个可查询、可定位、可被关注的类型化状态。 四、可信自主:大模型不是决策者,而是被审查的提案者 接下来进入第二大支柱:可信自主(Dependability)。 在这里,科学论证变得更加明确。
一个学习型模块可以非常有用,但同时仍然危险——它会在分布偏移下失效,它的置信度可能被错误校准;在语言模型的场景中,它可能生成一个听上去完美、实则违反任务级约束的计划。 所以问题是:什么是一个“可检查的对象”? 对感知来说,答案是类型化状态;对规划来说,答案必须是一个可容许的计划或动作。 我们的项目SELP(ICRA 2025最佳论文入围)正是为此而生。 它的核心思想是:将大语言模型的角色从"无约束的规划器"转变为"受约束的提案机制"。 SELP的工作方式是这样的:将一个机器人任务翻译成时序逻辑规范(Temporal Logic Specification),然后在生成过程中约束每一步——在每个token被采样之前,系统先检查“如果加上这个token,部分计划是否仍然可行”。 如果不可行,这个token在采样前就被屏蔽。 大语言模型仍然是有用的先验知识来源(帮助生成高效的计划),但它不再是安全问题的最终权威。 这意味着什么? 它意味着约束不是“事后补救”——不是在模型输出之后再贴一层安全检查;约束被嵌入到生成过程本身。 形式化规范不是护栏,而是搜索空间的边界。
沿着同样的哲学,我们还开发了CAsForD(Context-Aware Safety For Decision-making,上下文感知决策安全)——当用户指令不安全时,系统不只说“不”,而是识别不安全成分并选择安全修复方案。 还有我们实验室的其他工作,通过让模型产生数学优化程序来表达运动规划的时间约束。 一以贯之的原则是:学习型模块永远不获得未经审查的权威,它产生的计划、修复和控制必须可验证、可约束、可认证。 五、人不是移动障碍物:行为感知导航与多机器人协作 在第三和第四支柱中,我们的工作延伸到更复杂的社交和协作场景。 在人类行为建模方面,我们研究的问题包括:在密集社交场景中预测人类运动、建模群体层面的动力学、人-物交互,以及当场景中的物体需要被移动或重新布置时的规划。 核心主题是:人不仅仅是移动的障碍物——他们互相交互,他们与物体交互,他们与环境交互,围绕机器人形成了一个耦合的、不确定的动力学系统。 机器人必须预测人类行为,推理以物体为中心的上下文,并在几何约束不足以保障安全时采取行动。 在多机器人协作方面,我们研究了协作主动重建、多智能体信息路径规划、可扩展的多智能体SLAM等问题。
核心主题是去中心化的团队自主性:每个机器人必须基于局部观测和有限通信采取行动。 我们的策略是,在训练阶段使用集中式学习来获取优势,但在部署阶段以去中心化方式运行——在部分可观测、通信受限、多智能体动态交互的条件下。 六、结语:让机器人走出"温室" 回到最初的四大支柱,我想留给大家一个核心理念:安全的自主系统不是一个单独的模块,它是整个系统栈编织在一起的结果。 学习赋予机器人灵活性,但结构赋予它们可靠性。 真正的目标是——当世界变得混乱:没有GPS、地图不完整、物体在移动、处处都是不确定性——机器人仍然能够以安全的方式行动。 Q&A 问答环节 听众A: 感谢精彩的演讲。 我觉得工业界存在一个很大的脱节——我们在追逐KPI数字,和真正部署可验证、安全的系统之间。 我想问,您如何看待基于物理的方法与神经渲染(如高斯溅射)在验证与安全方面的关系? Aniket Bera: 这个问题切中要害。 所有的神经模型都需要——人们常说的——“护栏”(guardrails)。 但护栏的问题在于,它是一种事后补救:你把机器学习模型建好了,然后贴上一层基于物理的约束或真实世界约束来限制输出,让它在做出危险行为之前被拦住。 我认为这是极其错误的做法。
这些约束——无论是物理先验还是来自其他领域的先验知识——应该被“嵌入”到学习空间本身中去。 这就是为什么我们要把问题转化为形式化方法规范:让我们能够独立地约束空间中的每一个输出,从一开始就保证生成结果的可靠性和可信性。 目标不是“全押”在学习方法上,而是找到一种智能的组合——在何处植入形式化方法规范、在何处植入物理约束、在何处植入特定应用所需的其他约束。 听众A(追问): 您说的是应该“内置”(in)而不是“后置”(post)。 我的问题是:作为一个社区,我们有时候在追逐KPI数字,但真正部署物理系统需要考虑的远不止一个数字。 我们如何才能让这两者更接近? Aniket Bera: 我要说一些可能不太受欢迎的话。 在与工业界合作、尤其是与制造业和国防领域的工程合作伙伴打交道的过程中,我理解为什么很多工程方案倾向于更传统的控制方法——因为学术界常常把"学习"包装成一种万能神谕,仿佛它能解决下游的一切。 我认为弥合这两个世界的方法,也是让工程界对基于学习的方法建立信心的方式,就是从一开始就给学习型问题赋予约束、赋予意义。 我们不应该只看“教科书数字”,而应该关注系统在哪里失败、下游的可靠性指标是什么。
这正是这两个领域需要更频繁对话的地方。 听众B: 您谈到了让机器人行为更具社交性。 我的问题是如何将这些行为信号传导到操作层面(manipulation level)? 比如在布置餐桌的任务中,用户可能期望先放杯子再放盘子,这种对齐如何传导到运动规划层面? Aniket Bera: 这是一个很有意思的问题。 我认为,如果你能够在任务层面用更好的物理约束来约束生成过程——确保步骤序列物理上可行,不会导向灾难状态或伦理失效——那么,形式化方法的技巧就能帮上忙。 你可以将基于学习的方法剖分成子模块,判断每一步是否仍在规划边界之内,还是已经进入了安全关键区域。 不过,安全约束和文化/行为约束的性质不同。 如果你能把每一种约束都建模出来,嵌入到像SELP这样的形式化方法规范中,我认为只要在安全范围内,没有理由不能处理文化线索和行为线索。 这个问题我们可以在会后继续聊。 为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 ICRA 2026 的完整干货,雷峰网已全面上线【ICRA 2026 深度专区】。 专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲,更将持续更新前方记者的第一手会议动态。
扫描下方二维码,或点击“阅读原文”关注专区。 与全球 8000 名顶尖大脑同步呼吸,抢先透视具身智能的下一个五年!
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.
More from 雷峰网机器人
See more →
独家实拍|苏昊旗下机器人全球首次亮相,苏度科技惊艳 ICRA 2026
Sudo Technology showcased its robot at ICRA 2026, achieving nearly 100% Zero-shot success without real data training. The robot, featuring a dual-arm design with 7 degrees of freedom, utilizes a proprietary visual perception system to grasp various objects, highlighting advancements in Sim2Real technology.


