ICRA 2026 | EndoDDC：扩散模型赋能稀疏到稠密深度重建

5/27/2026

·~2 min·5/27/2026·zh·4

Quick Answer

The EndoDDC model, developed by CUHK, enhances depth estimation for endoscopic robotic navigation by integrating image data, sparse depth information, and depth gradients, achieving superior performance on C3VD and StereoMIS datasets with RMSE and MAE improvements of 5.28% and 7.84%, respectively, over existing SOTA methods.

Quick Take

Key Points

EndoDDC effectively addresses depth estimation challenges in endoscopic environments.
Utilizes a novel depth gradient fusion module for enhanced reconstruction accuracy.
Achieved significant performance improvements over the OGNI-DC model.
Demonstrated robustness across varying input sparsity levels from 50 to 50000.
Validated on C3VD and StereoMIS datasets, surpassing all evaluation metrics.

Article Content

From source RSS / original summary

来源：公众号“labren”原文链接：https://mp. weixin. qq. com/s/97_CzzOnRfXvVUV_q30wKQ? scene=1&click_id=26香港中文大学任洪亮教授团队论文《EndoDDC：通过扩散深度补全学习稀疏到密集重建用于内窥镜机器人导航》被机器人领域顶会 IEEE International Conference on Robotics and Automation (ICRA 2026) 录用。论文题目：EndoDDC: Learning Sparse to Dense Reconstruction for Endoscopic Robotic Navigation via Diffusion Depth Completion论文作者：林胤恒†（香港中文大学），黄一鸣†（香港中文大学），崔贝雷（香港中文大学），白龙（阿里巴巴达摩院，香港中文大学），高沪昕（香港中文大学），任洪亮（香港中文大学）, 赖捷文*（香港中文大学）论文简介：在微创外科手术中，内镜机器人的精准导航是提升手术精度、保障患者安全的核心。

而精准导航的关键，在于获取可靠的三维深度信息 —— 但内镜环境下的弱纹理组织、镜面反射等问题，一直让深度估计成为技术难题。现有方法要么依赖难以获取的稠密标注数据，要么在复杂内镜场景中鲁棒性不足，稀疏深度重建的有效性大打折扣。我们提出的EndoDDC方法，为内镜机器人导航的深度估计难题提供了创新解决方案。该方法通过融合图像、稀疏深度信息与深度梯度特征，借助扩散模型优化深度图，成功攻克弱纹理、光反射带来的技术痛点。主要贡献：EndoDDC针对内镜场景量身设计稀疏到稠密重建框架，有效解决传统微调方法对标注数据的依赖，以及自监督学习的尺度模糊问题，仅通过 RGB 图像和稀疏深度图即可输出精准稠密深度图。创新引入深度梯度融合模块，通过卷积门控循环单元（ConvGRU）迭代处理深度值与梯度信息，为重建过程提供精准几何引导，大幅提升弱纹理区域的重建精度。提出基于深度梯度的条件扩散模型，以初始粗深度图为起点，利用深度梯度特征约束去噪过程，迭代优化深度值，确保重建结果的全局一致性与物理合理性。

在 C3VD 和 StereoMIS 两大公开内镜数据集上完成全面验证，所有评估指标（RMSE、MAE、REL、δ 准确率）均超越当前 SOTA 方法。相较于最优深度补全模型 OGNI-DC，C3VD 数据集上 RMSE 降低 5. 28%、MAE 降低 7. 84%；即使面对 50~50000 不同稀疏度的输入，仍能稳定输出高质量稠密深度图。 EndoDDC方法概览和可视化样例EndoDDC 概述：在从 RGB 图像和稀疏深度图提取特征后，Depth Grad Fusion 模块会基于深度和梯度特征迭代地更新状态隐藏网络。然后，将该输出输入到 Depth Diffusion 模型进行条件引导下的补全。在 C3VD 和 STEREOMIS 数据集上与SOTA方法的深度补全结果比较。在 C3VD 和 StereoMIS 数据集上的比较。我们将 EndoDDC 与最先进的深度估计和深度补全方法进行比较；我们的方法在组织细节方面产生的误差更少。

【香港中文大学任洪亮教授课题组】香港中文大学（CUHK）医学机器人感知与人工智能研究课题组欢迎博士/博士后/研究助理加入，主要领域包括：医学机器人与智能系统、图像引导手术中的AI学习与控制、医疗机电一体化、连续和柔性机器人与传感器、变刚度调控技术、AI辅助内窥诊断、医学图像处理等。更多详情，请参阅任洪亮教授Google Scholar信息页与实验室网站http://labren. org/参考文献：Lin, Y. , Huang, Y. , Cui, B. , Bai, L. , Gao, H. , Ren, H. & Lai, J. (2026). EndoDDC: Learning Sparse to Dense Reconstruction for Endoscopic Robotic Navigation via Diffusion Depth Completion. ICRA 2026. 雷峰网

Read on leiphone.com

Want this in your inbox every morning?

Daily brief at your local 8am — bilingual EN/中文, free.

Subscribe — it's free

More from 雷峰网机器人

See more →

RoboScience机器科学发布通用具身大模型Visics，首次完整展示VLOA双引擎架构

雷峰网机器人

2w ago

FeaturedOriginal

RoboScience机器科学发布通用具身大模型Visics，首次完整展示VLOA双引擎架构

AI Summary

RoboScience unveiled its Visics model featuring the VLOA architecture, enhancing robotic capabilities in complex tasks like furniture assembly with millimeter precision. The model integrates a dual-engine approach, leveraging a unique data pipeline to achieve significant cost reductions and scalability in training data.

#Robotics #Open Source #AI Startup