
波恩大学 Maren Bennewitz 教授:让机器人在遮挡世界中主动获取信息 | ICRA 2026
Quick Answer
This paper shows that Professor Maren Bennewitz from Bonn University emphasizes the necessity of active perception in robotics, advocating for a closed-loop system that integrates perception, prediction, prior knowledge, and action planning.
Quick Take
Professor Maren Bennewitz from Bonn University emphasizes the necessity of active perception in robotics, advocating for a closed-loop system that integrates perception, prediction, prior knowledge, and action planning. She presents methods for robots to effectively gather information in cluttered environments by moving objects and utilizing semantic maps, enhancing their understanding and operational efficiency in domestic, agricultural, and service scenarios.
Key Points
- Robots must actively perceive to navigate cluttered, dynamic environments effectively.
- Semantic maps help robots decide which objects to move for better visibility.
- 3D scene graphs enable targeted object searches without re-exploring entire environments.
- Prior knowledge enhances robots' decision-making in complex tasks like fruit harvesting.
- Active perception transforms uncertainty into actionable insights for robots.
Article Content
From source RSS / original summary机器人不能只会“看见”。 作者丨郑佳美 编辑丨马晓宁 2026 年 6 月 4 日,在 ICRA 2026 “Robot perception and spatial AI” Keynote Session 上,波恩大学教授 Maren Bennewitz 发表了关于主动感知机器人的演讲,直指真实机器人部署中的一个基本困境:机器人面对的世界往往是杂乱、持续变化且只能部分观测的,仅靠被动观察无法完成可靠理解。 Bennewitz 的核心判断是:机器人要真正进入家庭、农业和服务场景,不能只把感知当作“看一眼”的过程,而必须把感知、预测、先验知识和动作规划放到同一个闭环里。 机器人需要主动移动视角、推动或抓取遮挡物,用最少的动作获得最多的信息。 她在演讲中给出了三类典型场景:其一,在货架或桌面等遮挡环境中,机器人通过不确定性感知的语义地图,决定哪些物体值得移动;其二,在家庭物体搜索中,机器人利用 3D 场景图、LLM 语义先验、几何约束和物体重定位规律,在不重新探索全屋的情况下按需寻找物体;其三,在农业监测与果实采摘中,机器人借助上一时刻的地图先验、非刚性配准和叶片形变模型,规划更高效的观测与操作动作。
这场演讲的关键洞察在于:主动感知并不是“多看几眼”,而是把“看哪里、动什么、何时停止”变成信息增益最大化问题。 对于机器人而言,世界不是一张静态照片,而是一组可以通过行动逐步揭开的信念分布。 1、真实环境的核心难点不是没有图像,而是不确定性和遮挡:机器人必须知道自己不知道什么。 2、主动感知的价值在于把动作变成信息采集工具:换视角、推开物体、移动叶片,都是为了降低地图和语义的不确定性。 3、先验知识并不替代感知,而是帮助机器人更聪明地选择下一步:LLM 提供语义常识,几何模型过滤不可能位置,重定位模型学习人类移动物体的习惯。 4、在农业机器人中,时间维度同样重要:上一轮完整重建可以作为下一轮观测规划的先验,让机器人在重复监测中避免从零开始。 5、面向采摘等高价值任务,机器人需要从“识别果实”进一步走向“估计可采摘性”,并理解叶片、视角和目标之间的遮挡关系。 总的来看,Bennewitz 试图回答的是一个非常现实的问题:当机器人无法一次看清世界时,它应该如何通过行动把未知变成已知? 她的答案是,用信念表示世界,用先验约束搜索,用动作主动降低不确定性。
以下是AI 科技评论对 Maren Bennewitz 在 ICRA 2026 大会发表的演讲实录整理。 内容基于英文现场转写进行不改原意的中文整理。 01为了看见遮挡物,机器人必须学会“动手”正如我们都知道的,机器人运行在杂乱、变化且只能部分观测的环境中。 因此,单纯被动观察远远不够。 为了完成任务,主动感知环境是必要的。 主动感知机器人必须在行动中整合感知、预测、先验信息和动作,主动获取信息,并提升对环境的理解。 今天我将介绍机器人如何高效增强它对世界的知识,主要围绕杂乱场景和隐藏物体展开。 更具体地说,我会讲机器人如何利用先验和试探性动作,在少量步骤内完成感知和操作。 先看一个场景。 我们有一个货架,前面有几个盒子,挡住了后方空间的视线。 问题是,我们怎样才能看见盒子后面的物体? 也就是说,机器人如何推理前方物体背后可能存在什么? 雷峰网在这个例子里,仅仅改变视角是不够的。 机器人必须移动场景中的一些物体,才能看见后面并覆盖被遮挡的空间。 这就是我们关注的问题。 我们使用一种带有不确定性的度量语义地图表示。 这个表示既可以推理场景中的所有物体,也可以推理操作动作及其约束的影响。
我们学习一个模型,预测这个地图表示会如何随着动作结果而演化。 也就是说,我们预测场景会如何因为视角变化、推动或者抓取而改变,并把它作为动作如何改变世界的先验。 基于这个学习到的模型,我们可以推断动作的效果。 因此,机器人会选择那些能够降低环境表示不确定性、降低度量语义表示不确定性的最佳动作。 比如在这个案例里,机器人可以先向左推动一个盒子,然后抓取另一个盒子,把它移到一侧,从而看见此前被遮挡的空间,并识别其中的物体。 雷峰网我们学习动作条件网络,预测占据、语义以及相应的不确定性。 这些网络会预测机器人执行某个动作之后,信念会如何变化。 网络也会预测对应的不确定性。 随后,我们选择那些能够降低不确定性、或者提高预期信息增益的动作。 我们会在接下来两个动作的序列上做优化,选择最大化信息增益、降低不确定性的序列。 这里是我们的目标函数。 对于纯粹的视角变化,我们考虑预期信息增益;对于抓取、推动物体以移除后方遮挡空间的动作,我们还会额外考虑动作成本。 然后,我们评估下一步测试动作带来的信息增益,并在两个动作的序列上进行优化,以最大化信息、降低不确定性。 这是我们与合作者共同开发的方法。
接下来可以看到系统运行的过程:左边是带有相机的机器人实验平台,右边显示机器人已经识别出的物体。 最开始,机器人已经识别了一些物体,而它的任务是识别场景中的所有物体。 使用我们的方法,机器人会查看世界中的不确定性地图,选择最好的动作来处理场景中的所有物体。 它会移动一些物体,抓取一些物体,把它们放到一侧,从而观察后方空间。 最后,机器人识别出了场景中的所有物体。 当然,机器人只会移除那些为了覆盖整个空间而必须移除的物体,并会在之后把它们放回货架。 这里可以看到,机器人能够维护关于环境中物体的长期信念。 因此,即使存在遮挡,它也知道物体在货架上的位置。 02基于 3D 场景图的按需物体搜索接下来一个问题是:机器人如何在更大的场景中搜索物体? 例如在一个完整家庭环境中,物体会频繁移动、重新放置,也可能被隐藏在家具内部。 我们如何让机器人在用户需要某个物体时进行搜索,而不是重新探索整个环境? 为此,我们把环境重建为一个 3D 场景图,就像前一场报告中也展示过的那样。 这个图包含房间、家具和隔层结构。 我们利用这个图来推理被搜索物体可能位于哪里,并把被搜索物体视为相关过程中的动态节点。
在搜索物体时,我们进行空间信念推理,利用这个图表示来推理物体的位置。 比如这里的例子中,机器人的任务是寻找一个物体。 环境中有三个可能的位置:货架、书桌和咖啡桌。 第一步,我们使用来自 LLM 的语义先验,初始化关于搜索物体位置的信念。 在这个例子里,机器人一开始认为最可能的位置是货架,其次书桌和咖啡桌也有一定概率。 当然,我们也考虑几何信息。 我们会预测目标物体是否应该能够放在某个位置上。 如果这个物体太大,无法放进某个隔层,那么我们就会降低它在该位置的概率,相应地提高其他位置的概率。 最后,非常重要的是,我们会基于重定位动态来更新信念。 也就是说,机器人学习环境中的物体重定位转移概率。 整体流程有三步。 首先,LLM 根据场景图为我们预测候选放置位置。 它的输入是场景图,输出是候选位置,例如家具节点或者隔层节点,然后我们把这些排序转换成关于位置的先验。 其次,我们基于目标物体尺寸过滤掉不可行的位置。 再次,我们基于观察到的稀疏数据更新重定位转移概率,让机器人学习人的移动习惯,并随着时间调整搜索策略。 我们把这些因素结合到全局定位中。
由于被搜索物体可能在没有被观察到的情况下发生变化,我们也允许一定概率扩散到环境中的其他区域。 最后,我们进行代价感知的动作选择,在物体可访问性、预期动作成本以及对人的影响之间做平衡,由机器人选择最有用的位置进行检查。 我们在家庭环境数据上评估了这个方法,场景中的物体会发生重定位。 评估时,我们给定固定的搜索预算,并测试机器人能否找到目标物体。 如果不使用任何先验信息,只在可能搜索位置上使用均匀先验,那么成功率较低。 加入语义先验和几何先验后,搜索成功率会提高;进一步加入学习到的重定位转移后,在固定时间预算下,成功率还能进一步提高。 因此,这个方法能够支持按需搜索,而不需要重新探索整个环境,因为机器人会随时间维护长期信念。 03让农业机器人少走冤枉路现在我们考虑持续变化的环境。 一个具体例子是农业环境:植物会生长,外观也会随时间变化。 我们考虑园艺或农业应用中的作物重复监测。 监测会被反复执行,例如每周两次,我们希望通过监测变化来估计产量。 当然,我们不希望每次都从头开始。 想法是使用上一个时间点学习到的模型,来指导当前时间点的视角规划和重建。 当作物生长时,它们会带来严重的遮挡,因此我们需要利用上一轮的先验。
我们的平台会在作物行之间移动,并带有固定的相机阵列。 随着平台穿过环境,我们可以部分重建作物行。 但由于作物有许多行,而且存在遮挡,当前数据中会出现空洞。 于是,我们的想法是利用上一时间步的模型作为先验,进行高效的视角规划,移动投影或相机来填补当前时间戳数据中的空洞。 具体来说,我们会对上一时间步的重建模型进行非刚性配准。 上一时间步的模型更完整,而当前时间步只有部分重建。 我们把上一次的模型配准到当前的部分重建上,也就是把两个点云以非刚性的方式对齐。 之后,我们执行一个优化过程。 现在我们有了一个近似表面,可以使用集合覆盖优化:在估计表面上采样目标点,然后选择能够覆盖这些目标点的视角。 随后,我们执行覆盖优化,并用旅行商问题计算一条近似最优路径。 在真实温室数据中,首先可以看到移动平台静态相机得到的部分重建。 由于遮挡,当前数据里有空洞。 然后,我们把上一轮数据对齐到当前部分数据,基于近似表面执行视角规划,再规划路径并在平台上执行,从而收集覆盖植物的新数据。 最后,我们得到了一条高效路径,覆盖了所有表面,也填补了当前数据中的空洞。 这个模型随后又可以用于下一时间步的监测。
04把叶片也纳入行动规划刚才我们看到,先验地图可以帮助重复监测中的视角规划更高效。 但像甜椒或番茄这样的果实仍然会被部分遮挡,因为机器人不能仅仅依靠寻找它们就完成任务。 有时,移动叶片是必要的,这样才能可靠估计果实形状和可采摘性。 在这项工作中,我们使用叶片形变模型来评估候选动作、评估可能的视角,并预测叶片背后的可见性。 通过这种方式,我们可以揭示被遮挡的区域,并估计果实的尺寸。 到目前为止,我们假设遮挡叶片是已知的,也就是说机器人知道应该操作哪片叶子,才能看见后方缺失的部分。 而我们现在正在做的是学习一种用于遮挡推理的表示。 我们的目标是学习一种统一图表示,建模可见性关系和遮挡关系。 利用这个图,机器人可以识别哪片叶子从哪个方向遮挡了目标,以及应该按什么顺序进行处理。 例如,我们会估计观察方向。 在一个例子中,根据这个图,我们得到果实和叶片的排序,并结合观察方向判断某片叶子的遮挡排名最高。 因此我们知道,这片叶子需要被推到一侧,才能显露果实并估计它的形状。 刚才介绍的这些技术可以用于估计可采摘状态,然后进一步执行实际采摘。 这里可以看到,机器人能够使用一个包含相机、切割器和操作器的三臂系统,可靠地识别作物并完成相关操作。
最后总结一下。 机器人在很多场景中都运行在杂乱、变化且只能部分观测的环境里。 因此,机器人需要同时规划观察动作和操作动作,用于物体搜索、地图构建和环境重建。 我展示了先验如何引导感知以及感知和操作动作的规划。 因此,先验有助于实现高效的主动感知。 我还展示了信念传播如何支持对遮挡物体以及操作动作效果的推理。 通过主动选择能够降低不确定性、提升可观测性并处理遮挡的动作,我们能够增强机器人的能力,让机器人更好地获取知识、理解环境。 正如我最后提到的,下一步我们将通过学习和表示可见性图以及遮挡关系,进一步推理遮挡问题;同时也会继续研究生成式方法和相关服务机器人应用。 05Q&A 问答环节听众提问:移动叶片这个动作看起来代价比较高。 为了估计果实的可采摘性,到底需要实际移动多少? 能不能依赖关于果实外形和可采摘性的先验信息,即使我们没有完整看到果实? Maren Bennewitz:谢谢你的问题。 首先,我们会使用形状补全方法。 比如我们只部分观察到甜椒时,可以使用一些方法来估计并补全它的形状。 然后,我们会对叶片使用形变模型。 我们使用一种形变图来估计叶片能够如何被操作、应该往哪个方向移动。
之后,我们再估计被遮挡的区域是否能够被显露出来。 这个过程目前当然仍然有成本,但最终我们能够得到关于甜椒更完整的信息。 听众提问:所以你们确实需要移除遮挡物,才能估计它是否可采摘吗? Maren Bennewitz:我可能没有完全理解你的问题。 你是说仅仅估计可采摘状态,对吗? 对于可采摘状态本身,也许并不总是需要移除叶片;但我们这里讨论的是移除叶片来估计形状、估计合适的操作过程。 因此,对于另一些设置,你也许不需要真的移除叶片,但可以做出相应决策。 听众提问:谢谢你的报告。 我很欣赏这种基于信念的方法。 我想问的是,当物体被完全遮挡时,物体本身会出现在你的信念先验中吗? 如果目标完全被遮挡,这种基于信念的方法如何适应? Maren Bennewitz:一开始,机器人完全不知道后面有什么。 这是对的。 因此,这个区域会有很高的不确定性,因为我们不了解这个区域。 于是,机器人会推理应该移动哪些物体,才能看见后面。 也就是说,我们会给这个区域的占据和语义赋予较高的不确定性。 听众提问:所以信念是关于区域的,而不是关于物体的? Maren Bennewitz:正是如此。 我们使用的是度量语义地图表示,信念是在这个度量语义表示上的。
基于这个表示,物体随后才会被识别出来。 谢谢。 去哪看 ICRA 核心【演讲/论文】详解? 为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 ICRA 2026 的完整干货,雷峰网已全面上线【ICRA 2026 深度专区】。 专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲,更将持续更新前方记者的第一手会议动态。 扫描下方二维码,或点击「阅读原文」关注专区。 与全球 8000 名顶尖大脑同步呼吸,抢先透视具身智能的下一个五年!
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.
More from 雷峰网 AI
See more →
独家|前小米崔宝秋低调创业,揭开家庭机器人的最优解
Cui Baoqiu, former Xiaomi tech lead, has launched 'Ruoban Technology' focusing on home robotics, securing star-studded seed funding. His vision includes integrating AI-driven robots into smart homes, leveraging his extensive experience from Xiaomi and the open-source movement.


