
对话速腾聚创杨先声:机器人的通用智能,先从一双「不骗人」的眼睛开始 | ICRA 2026
Quick Answer
At ICRA 2026, Yang Xiansheng from SUTENG demonstrated a novel visual perception architecture for robots, aligning depth and RGB data at the physical level, significantly enhancing precision and reliability.
Quick Take
At ICRA 2026, Yang Xiansheng from SUTENG demonstrated a novel visual perception architecture for robots, aligning depth and RGB data at the physical level, significantly enhancing precision and reliability. This innovation aims to overcome the limitations of traditional 3D cameras, which struggle with depth accuracy and environmental adaptability, ultimately accelerating the evolution of physical AI.
Key Points
- The new architecture eliminates the need for post-processing algorithms for depth and color data.
- Current robots struggle with perception speed and accuracy, limiting operational efficiency.
- SUTENG's SPAD technology allows for higher integration and performance in depth sensing.
- The RGB-D sensor fusion approach reduces computational load while improving frame rates.
- Future advancements will focus on enhancing tactile sensing alongside visual capabilities.
Article Content
From source RSS / original summary机器人不仅要看得见,还要看得远、看得稳、看得全。 作者丨高景辉 编辑丨马晓宁 当全球具身智能公司都在ICRA 2026的展台上比拼 DEMO 时,一个棘手的问题却被众人所忽视:机器人至今没有一双真正好用的眼睛。 这是整个行业心照不宣的卡点。 所有人都在说大模型、VLA带来了通用智能的曙光,但落地时却卡在了最原始的环节——机器人看不准三维世界,做不了精细操作,速度永远赶不上人类。 为了弥补传感器的缺陷,解决制约物理AI的卡点,公司们不得不投入大量资源搭建仿真环境、采集标注数据,用算法去“猜”深度……本质上是在用软件填硬件的坑。 在这一背景下,速腾聚创副总裁杨先声在 ICRA 做了一场学术汇报,展示了一套面向机器人的全新视觉感知架构。 与行业普遍采用的“先分别采集、后算法融合”不同,这套架构在物理层面就实现了深度探测与RGB的天然对齐,深度信息与颜色信息无需后期校准,直接输出给后端。 在杨先声看来,这才是解决机器人感知问题的根本路径。 但这一新架构究竟要如何打破传统3D相机“稳定、距离、精度”的不可能三角? 从雷峰网·AI科技评论在 ICRA 现场与杨先声的对话中,我们或许可以找到答案。
▎AI科技评论:速腾在ICRA带来了新的视觉感知架构,可以简单透露下吗? 杨先声:新的架构和之前相比,最大不同在于原始数据底层就已经融合好了,所以在物理层面上,它的深度信息和颜色信息是天然对齐,不需要后期算法去处理。 所以这个架构在精度、可靠性上,包括成本、性能,各方面都是比之前的方案要好,会大幅提升机器人训练数据的质量和实时感知能力,将会大大加速物理AI的进化。 ▎AI科技评论:现在机器人在感知方面的痛点是什么? 杨先声:你可以看到所有机器人现在做一些很精细的活,但它速度很慢,远远达不到人类效率。 其中主要的卡点在于感知能力,而感知能力在物理层面上是有限制的,更何况机器人在开放环境需要实时的感知决策,所以难度很大。 当然,用一个简单的传感器也能做到高智能,但这对其他技术的要求会高很多。 而如果机器人对世界有清晰的感知,再做一些控制或者其他的决策就容易多了。 否则就会花很多精力去做训练,做试错,让它慢慢慢慢的收敛,还要使它可控。 所以我们关注的第一步就是先解决机器人的感知。 ▎AI科技评论:相当于你们在感知层面给了机器人更高的起点,后面做其他环节就可以更加简单?
杨先声:对,这个可以分两个层面,机器人相比于自动驾驶更复杂,不光是维度更高,从一个平面会到立体空间,它面对的操作和环境也是千变万化的。 而且它是有接触的,但车不需要接触障碍物。 人能完成操作,是因为人的感知力很强,不仅有触觉,还有力觉,甚至还有那种接触觉,这种复合的空间立体感知能力可以准确感知周围事物空间位置的变化。 但目前机器人的眼睛现在其实并不准,大大限制了它的泛化能力。 而我们现在做是,先解决他能感知环境的能力。 现在机器人需要大量数据去帮助它在环境中训练,把真实世界的环境输入进去,这一步就很难了,因为把真实环境照搬仿真环境里的工作量非常大,对于很多公司是不现实的。 但如果三维空间传感器足够好,就能把完整的立体空间和色彩信息全部输入给机器人和仿真环境,成本会大大降低,所以这是关键第一步。 现在机器人缺乏高质量的空间数据,不只是激光雷达这种带点云的,它还需要带色彩纹理的RGB的信息,因此我们的传感器应运而生。 ▎AI科技评论:您在报告里强调了“深度”,机器人对深度的感知是不是行业目前比较薄弱的环节?
杨先声:对,激光雷达已经是一个比较可靠的深度传感器了,以自动驾驶为例,在大空间、长距离、车载环境上,一般每100米只有5厘米到10厘米深度误差,对于车载是够用的。 但是对于机器人面对这种的复杂环境,需要到毫米级的深度感知。 目前能用的像双目结构光、ToF这种传统3D相机,它们在很多环境都不稳定,测距范围也就是一米左右。 而且还有三个物理层面无法解决的缺陷:第一,这三种方案都属于间接测量,能力被环境光变化限制;第二这三种方案的分辨率低,也都做不到RGBD的像素级对齐;第三,这三种方案都有CIS(图像传感器)的问题,存在无法克服的炫光、精度衰减等问题。 这些方案都非常耗算力,在提升帧率、降低时延等影响机器人末端控制的关键技术点上很难做出有价值的突破。 所以,虽然大家都在用这些方案,但是都只在特定的环境当中用。 而我们用激光雷达,如果能把这深度信息的精度解决,再把它的分辨率再提升,就可能是一个相对完美的传感器。 我们正奔着大家心目中理想的传感器在演进,试图打破稳定、距离、精度的不可能三角。 ▎AI科技评论:就视觉感知来说,从智驾到具身智能,哪些技术可以复用?
杨先声:我们现在其实整个激光雷达底层的技术,都已经统一了,就是我们SPAD-SoC这套数字化架构。 只不过对于车载来说,我们更加专注于长距离、高分辨率、低成本,对机器人而言,我们关注近距离,高精度,小体积,低功耗,甚至要跟RGB做融合,这个其实跟体感技术是很类似的,但是我们把它最终产品形态上做了很大的区分。 ▎AI科技评论:你们的技术路线有哪些独特的优势? 杨先声:我们的SPAD技术路线最大价值就是更高的集成度。 原来SiPM可能做128线就已经是旗舰产品了,但对于我们SPAD来说,做个几百线,甚至上千线都是很容易的事情。 这相当于是在性能层面已经到了另外一个维度。 所以今年友商其实都在跟进这个新的方向。 在这个方向上,我们的芯片有两年的代差优势。 ▎AI科技评论:开发的壁垒在哪里? 杨先声:我们现在是全栈自研的,就是从接收芯片,发射、驱动,甚至SOC全是自研的。 所以从芯片设计,芯片的流片,再到整个系统架构,包括芯片的稳定性和成本,系统的调通,系统优化……这个整个全链路其实都是壁垒,我们也是花了很长时间才走通。
▎AI科技评论:我看到您有一个非常通俗的表达,就是说机器人不仅要看得见,还要看得远、看得稳、看得全,能不能介绍这三个分别对应的技术问题是什么? 杨先声:“看得见”意思是,现在传统的这种机械式激光雷达分辨率很低,就是16线、32线阶段,这个雷达只能做导航,用来做空间定位,其实它是看不清你身边有什么东西,所以以前激光雷达的作用是非常有限的。 当我们推出这种几百线、上千线的高线数的激光雷达之后,它就能把整个环境用三维的方式给还原出来,那这个时候就不只是用来做的定位导航,我们还可以做精细感知。 再然后,当我们在底层,把RGB融合进来后,空间环境感知的所有信息我们用一个传感器就可以都解决。 ▎AI科技评论:这种新的技术会不会对机器人数据采集的效率、质量有所提升? 杨先声:这是一定的,因为大部分数采公司找我们合作。 他们遇到的问题是一样的:视觉可以通过大量的数据训练去获得一个比较好的成果,但是终归它不是一个很稳定、很鲁棒的一个东西,所以它精度上限不高。
虽然未来机器人可以用视觉去完成大部分工作,因为这样成本比较低,可以推广,但是在早期做训练和研究的时候,不可能用视觉去做,而且数采本身就是为了拿这个数据作为基准去训练,所以它需要高质量的数据。 虽然很多人都用视觉做数采,但并不意味着真的能满足客户需求,我们其实已经收到很多终端客户的反馈,认为大部分的纯视觉数据在质量上难以满足需求。 我们今年接触到很多这种做数采的客户,都在想办法去拿基于高精度的三维感知,去提升他们整体的数据质量。 ▎AI科技评论:随着这种全新形态的RGB-D设备出现,会不会增加端测处理信号的算力要求? 杨先声:其实不会。 虽然双目设备很便宜,就两个摄像头,但是需要大量的算力把深度信息给反解算出来,所以很消耗算力。 而我们这种RGB-D融合的方式,可以直接计算深度信息,直接把图像信息和深度信息给到后端,没有解析的过程,所以其实它反而大大节省了算力,还能提升帧率、降低延迟,对整个VLA性能和末端控制的提升都很有价值。 ▎AI科技评论:随着线数的增加,点云的密度在增加,处理的信号不会更多吗?
杨先声:对,但这个可以自己选择,如果不需要这么密的深度信息,依然可以选择低密度采样的方式,但是无论如何,我们至少节省了客户在后端计算的过程,提升了他们的效率,而且还节省了很多存储的空间。 ▎AI科技评论:很多具身公司是从智驾行业转过来的,他们在选择供应商时会不会有路径依赖? 杨先声:其实会有这个趋势。 因为具身智能是比自动驾驶更高端的领域,技术维度也比智驾更高,它不仅包括感知、决策、规划,还包括更高精度、更高维度的传感器的这种设计和需求,更不用说后面的控制和感知的算法其实更加复杂。 所以对大家而言,不管是我们作为上游的传感器厂商,还是作为下游的这些机器人公司,他们都会一起来做,所以我觉得大家是共同在进步。 ▎AI科技评论:未来3-5年机器人在感知方面最大的变数在哪里? 杨先声:现在有两大突破点,一是对环境的3D环境的感知,这是我们的优势。 当我们这种新的RGBD方案成熟的话,那我觉得未来机器人在眼睛这个程度上,就会逐步收敛,就跟人一样,有一双眼睛就够了。 然后就是要把触觉再逐步优化,因为现在触觉第一是贵,第二是它的可靠性、耐用性不够,第三是成本太高。 ▎AI科技评论:从技术原理的角度,触觉会不会要比视觉更难达到新的高度?
杨先声:对,因为视觉归根结底还是个非接触性传感器,不会有太多的材料上面的问题。 触觉传感器要实时跟环境有接触,接触会带来摩擦,就会带来可靠性的问题,甚至接触不同的物体,对不同材质啊、温度都很敏感。 一旦产生交互之后,所有的问题都会升级很多。 ▎AI科技评论:对于纯视觉的方案和激光雷达方案,企业在选择上会有什么考虑? 杨先声:我觉得机器人不存在所谓的纯视觉概念,因为人类空间感知也都是立体视觉和三维感知的。 因为所谓的纯视觉没办法在这种复杂环境当中确保稳定性,而操作一定需要很高精度的空间感知能力,所以所谓的纯视觉没办法做到既高效又可靠的。 去哪看 ICRA 核心【演讲/论文】详解? 为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 ICRA 2026 的完整干货,雷峰网已全面上线【ICRA 2026 深度专区】。 专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲,更将持续更新前方记者的第一手会议动态。 扫描下方二维码,或点击「阅读原文」关注专区。 与全球 8000 名顶尖大脑同步呼吸,抢先透视具身智能的下一个五年!
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.
More from 雷峰网机器人
See more →
ICRA 2026最佳论文奖,千寻智能首席科学家、清华高阳团队FP3入围
The FP3 model, developed by Tsinghua University's Gao Yang and Spirit AI, is nominated for the ICRA 2026 Best Paper Award, showcasing a 1.3B parameter 3D strategy model that outperforms existing benchmarks by over 80% in unknown environments. Spirit AI also announced a record 15 billion RMB funding and its model Spirit v1.6 topped the RoboArena benchmark, marking significant advancements in embodied AI.

