引入LPU的英伟达,是在补强,还是在拆自己的护城河?|GTC观察
Quick Take
NVIDIA's introduction of LPU raises questions about its strategic direction amidst evolving AI chip dynamics.
Key Points
- NVIDIA's LPU aims to reduce inference costs and latency.
- The shift from economic to physical constraints in AI computing.
- Token economics emphasized as a new performance metric.
Article Content
From source RSS / original summaryGTC 2026落幕当天,英伟达透露早先与亚马逊云科技(AWS)达成的大规模芯片采购协议,将在2027年前完成交付。 黄仁勋在大会上提到的2027年万亿美元营收目标,正在变成真金白银的合同。 但真正让行业侧目的,是Groq芯片首次进入AWS数据中心——LPU到底蕴藏多大价值,值得英伟达如此力推? (LPU到底是不是推理最优解? 欢迎添加作者微信 Evelynn7778 探讨交流)带着这个疑问,我们(公众号:雷峰网)与三位半导体与AI算力领域的老兵聊了聊,他们分别是:徐凌杰:魔形智能CEO,曾任职于NVIDIA、AMD、三星北美研究院、阿里云,并联合创办了壁仞科技罗彤:芯动科技首席技术官,历任力积存储中国区总经理、爱普存储技术(杭州)总经理、德商柏狮电子亚洲区市场与销售副总、日商凸版半导体新加坡董事总经理刘昊飞:盛景嘉成创投创始合伙人,曾任中国移动系统架构师、汉能投资集团执行董事黄仁勋的表达欲仍在延续。 GTC落幕后,他依然四处讲着OpenClaw的时代象征、Rubin机架的生态议题、以及Token经济学的故事。 当“十年寒窗无人问”的Token一夜成名,这场GTC究竟给中国芯片厂商留下了什么启示?
谈芯片:LPU背后:从经济瓶颈到物理瓶颈,SRAM重回牌桌“推理时代”已经到来。 两个月前在CES大会上以六芯组合面世的Rubin平台,这次升级为七芯——新加入的,是专为AI推理设计的专用芯片LPU。 这是英伟达获得Groq技术授权后,后者芯片首次出现在其产品组合中。 在刘昊飞看来,本次大会为LPU入场的造势,离不开全民养虾的热潮。 他表示,当Token使用量呈指数级增长时,降低推理成本与输出延迟变得至关重要,而结构比GPU更简化的LPU便显出优势——LPU的一大亮点,是其SRAM(静态随机存取存储器)架构大幅减少了数据搬运时间。 罗彤指出,LPU采用的SRAM架构,此前曾因成本是DRAM的6倍而被替代。 但RISC-V 鼻祖David Patterson说过:“一个小型SRAM的能效是DRAM的128倍。 ”这意味着,当衡量标准从成本转向能耗时,SRAM的优势将得以重现。 罗彤进一步解释,过去行业关注的是“一美元能买多少Token”,这是经济学的逻辑。 但在这次GTC上,黄仁勋特别强调“每焦耳能产生多少Token”,显然是摩尔定律的失效让他有了新的思考——物理极限的刚性不是其他因素可以比拟的。
因为地球上允许接受的能量是有限的,谁能用更少的能量产生Token,谁就能在算力峰值上领先。 这正是从经济瓶颈时代进入物理瓶颈时代后的新规则。 不过,徐凌杰也指出,Groq 3 LPU采用的纯SRAM架构并非Groq一家独有,阿里、Graphcore等公司都涉猎过;且“GPU+LPU”的异构架构也非首创,国内大厂早有尝试,异构也是行业的演进方向。 尽管如此,他认为,“在大模型不同阶段,用不同的芯片达到最好的效果,这个做法是毫无疑问的。 ”以去年被提出的CPX为例,过去其与HBM版本的芯片比起来成本显然大幅下降,但在GDDR也涨价的当下,CPX的“性价比”故事是否讲得通已经存疑。 (CPX当前性价比表现如何? 可添加作者微信 Evelynn7778 交流)或因为此,CPX在此次的GTC上销声匿迹。 但他表示,在未来合适的时候,CPX可能还会“冒出来”。 据徐凌杰观察,此次GTC传递出的更重要的信息是:黄仁勋提出Token分层定价,这意味着只要有人愿意买单,就能获得最极致的性能。 他直言,如果按照LPU的价值去计算,TAM(可触达市场)价值一下子大了几十倍,这是LPU最激动人心的地方。 然而,LPU带来的变革也不是彻底的。
一位专家曾向罗彤表示,真正与众不同的存在是英特尔的CPU、英伟达的GPU和谷歌TPU,其他PU只是类似将X、Y、Z三个基本元素通过不同比重进行组合、最终调制而成的混合物。 当前产业链最需要攻克的难题,还是提升芯片最基本的计算、存储和连接单元的效率,并达到降本效果。 谈架构:加码整机柜算力,英伟达70%毛利率能否持续从Blackwell NVL72到Rubin的机架设计,英伟达持续加码“整机柜算力”的叙事。 训练时代的王者在推理时代打出这套组合拳,意欲为何? 这也是三位嘉宾热议的核心。 在刘昊飞看来,这是英伟达在推理时代进一步占据客户心智地位的体现;而在徐凌杰看来,这种提高自我门槛的叙事选择,本质是为了提高效率。 随着模型参数膨胀,Token需求量激增,算力成本也急剧上升。 “稀疏化激活”的MoE模型架构通过降低单Token计算量解决了成本问题,但也随之衍生出“专家并行”等各种并行需求。 由于单芯片面积有限,MoE模型往往需要上百张卡协同工作。 为了保障芯片间的高效通信,将各类芯片通过超节点耦合在一起,便成为顺理成章的选择。 但做超节点绝非易事。
徐凌杰留意到,在CES大会上,黄仁勋前脚刚展示NVL72通过无缆化(cable less)设计将原本两小时的组装时间缩短至几分钟,AMD董事会主席及首席执行官苏姿丰后脚推出的Helios产品,采用的还是英伟达两年前的互联方案——可见,大家都在跟进,但技术变化一日千里。 (当前国产超节点建设有何新进展和挑战? 欢迎添加作者微信 Evelynn7778 交流)技术迭代如此之快,那英伟达70%的毛利率未来还能否持续? 罗彤认为,英伟达不是光有技术,而是具备将技术转化为长期盈利的能力。 在他看来,黄仁勋与哈萨比斯(DeepMind创始人)的商业逻辑很像,后者对DeepMind创建使命的阐释“解决智能,再用智能解决一切”在圈内广为流传。 这体现在英伟达身上,就是其与台积电、EDA巨头Synopsys合作,在最尖端芯片的研发中利用自身算力改进芯片设计,通过“智能”反哺“智能”,飞轮由此高速转起来。 不过,这种强掌控力,不仅基于对核心技术的布局,还源于英伟达对高价值环节的精准卡位。 徐凌杰指出,英伟达未来也不会独占整条产业链,而是像华为、苹果那样,将毛利相对较低的部分交由供应链完成,做“只吃高增长部分的蛋糕”的链主企业。
同时,他也提醒,国产芯片公司不能盲目追求和英伟达一样的高毛利,要在芯片互联、模型软硬件调优等领域突破创新的同时,通过性价比打开市场,带动国产产业链一起成长。 谈软件:“龙虾”配套开源模型,AI Factory下场和客户抢饭碗? 养虾潮也蔓延到了大会上。 映照黄仁勋所说的“每个公司都要有自己的OpenClaw战略”,英伟达为龙虾推出的企业版软件栈NemoClaw正式亮相,配套了最新一代Nemotron开源模型。 在专门针对OpenClaw的基准测试PinchBench上,Nemotron任务成功率直逼Claude Opus 4. 6、GPT-5. 4。 英伟达在软件栈上的持续迭代,是其在业内遥遥领先的一大护城河。 在大家看来,英伟达此举也不是想与它的软件客户们“抢地盘”。 罗彤指出,身为GPU公司的英伟达,必须自己先把应用跑通,才能有效引导客户使用。 他打了个比喻:CPU像一把内部结构精巧复杂的手枪,任何人只要会扣动扳机就能上手;而GPU像一根棍子,结构简单,但需要掌握技巧才能发挥最大威力。 徐凌杰则从商业逻辑角度补充:开源开放是英伟达的基本策略。
就像黄仁勋讲CUDA时第一个提到的词“Install base”(安装基础),英伟达需要足够多的客户来构筑生态基础。 他借用谷歌收购安卓的例子,指出前者不直接靠后者赚钱,而是基于后者系统让自家搜索、浏览器等服务触达更多用户。 同理,英伟达也可以用开源软件为硬件“带货”,这是前者最大的价值。 如果有人想模仿,徐凌杰认为除非能做到整合人工智能底下“四层蛋糕”,放在国内语境来看,则需要产业链的互相配合。 但是,当下国内芯片公司,还普遍面临软件团队规模小、客户服务能力弱等困境,难以支撑完整的生态建设。 (当前有哪些突围之路值得借鉴? 欢迎添加作者微信 Evelynn7778 探讨分享经验)不过,几位嘉宾也已指出了破局之道。 在罗彤看来,国内芯片企业实力过于分散,与其几十家小公司各自为战,不如通过整合形成一两家有实力的平台型公司,集中资源搭建软件生态和客户服务体系。 徐凌杰对此则较为乐观。 他指出,国内大模型在开源层面已接近国外水平,通过从闭源模型蒸馏,有望取得更好的效果。 与此同时,超节点所需的散热、互联、供电等工程化能力,正是国内芯片产业的优势所在,这让国内厂商有望以美国几分之一的成本进行量产。
以下是此次圆桌对话的精彩分享,雷峰网(公众号:雷峰网)在进行了不改原意的编辑整理:雷峰网·胡敏:各位对今年GTC最强烈的感受是什么? 或者你们对这场会议印象最深刻的是什么? 罗彤:黄仁勋特别强调”Token”这个概念,并且将(计量)单位从成本转成能量,即每焦耳能产生多少Token。 从这次大会他开始提到物理极限而不是经济极限来看,我认为那真的是摩尔定律在供应端到了快要终结的时候。 作为关注现实世界的科学,物理学与数学有一个很关键的不同:物理是要有边界条件才有答案,但早先没有人去看算力的能源边界,因为一次计算的能耗是很低的,大概一万亿分之一焦耳,而一焦耳相当于把一克水升高一度的能量。 当下计算能耗这个概念变得重要是因为计算量变得很庞大,现在AI最主流的路线是把很多复杂问题解构成简单的数据问题,用蛮力去解决,对物理资源的压力就非常大,芯片的各种能力(算力,存力,运力)也被压得非常极限。 最近DRAM内存荒、涨价非常离谱,都是因为达到了某种物理极限的结果,能源极限后就牵扯到了太空算力的问题。 除了物理极限,黄仁勋花时间讲的还有和Open Claw配合的生态。 他试图把各种要素拼在一起,形成更大的掌控能力。 这也是双刃剑。
如果一个公司把所有能力都掌握在自己内部,对外界来说是更危险的,因为能控制的因素就少了。 不过,英伟达今天之所以能涨得这么好,并不是因为把所有能力都抓在自己手里,而是分化在多方手里。 没有任何一个实体可以单独造成巨大的损害,从安全角度考虑是好事。 此外安装小龙虾的设备是很典型的端侧,执行轻量级的编排和调度,所以吃的内存不是很高,我认为(端侧)是未来的大方向。 徐凌杰:在魔形智能成立的这两年里,我们一直在讲Token,之前对于投资人来说还是属于比较抽象的,直到去年下半年中国各种超级应用出来,再加上最近小龙虾火爆后,一把点燃了Token。 我觉得这是在对的时机有对的机遇出现。 Token事实上是把人工智能蛋糕下面的四层完全封装在一起,能够整体地去做输出。 那整体来讲,Token经济学变得非常清晰,毫无疑问这是一个非常大的产业。 基于此,未来每个公司不仅要给员工发工资,还要另外配备Token,这是公司为智力付出的额外的成本。 刚刚罗总讲到了物理的极限。
其实两年前我在参加台北电脑展的时候,英伟达就第一次用了一个词叫“technology limits”,也就是说行业整个发展方向不是在挤牙膏,(意味着)英伟达就是在贴着technology limits,甚至是说physical limits在往前走。 刘昊飞:可以用“热”来形容。 此时圣何塞午后在30度,正好赶上这一波技术热浪。 现场可以说是摩肩擦踵,从早到晚,有点像90年代北京站春运。 我住在Palo Alto,距离圣何塞大概三四十公里,酒店每晚价格换算成人民币在两三千块钱。 雷峰网·胡敏:如何看待Vera Rubin平台这次引入的LPU? 徐凌杰:这次NVIDIA把Groq的LPU引入,把Attention跟FFN做分离,事实上我也了解到国内的大厂之前是在做尝试的。 这不是一个新的概念。 在大模型的不同阶段,用不同芯片来达到最好的效果的做法是毫无疑问的。 像去年提到的CPX,是RTX 6000 Pro的下一版,也是5090大内存版本的专业版,看起来相比HBM的版本芯片成本大幅下降。 但今天GDDR也涨价了,那经济上还算得过来? PCIe形态能否满足效率? 我觉得CPX可能接下来也会再冒出来,只是在不同阶段起到不同的作用。
2016年Groq横空出世时,我在硅谷和创始人Jonathan进行过多轮交流。 现在其实在市场上提供服务的话,还是19 年底流片、20年回来的第一代芯片。 后面因为融资问题一直没有进展,直到碰到了大模型,Groq把这几百个芯片集联起来去做。 那我想这个芯片肯定是有可取之处,但是从这个流派来讲,并不说只是他一家独有的,像之前我们在阿里做的含光芯片、我们的CTO金琛之前在的Graphcore(后面被软银收购)做的芯片,也都是纯SRAM架构。 从这个产品本身来讲,我们看到的最大的信息不是性价比。 黄仁勋反而讲的是另外一个观点,就是Token是分层的,只要有人愿意买单,我就给他最极致的性能。 目前想在Groq这一采用SRAM架构的芯片上跑大模型,假设在放得下、极低延迟的情况下,那么是能给到比较好的Token质量。 但当前它的容量比较小,不一定能跑起来。 如果按照给出的价格区间,大众化的Token在 3 ~ 6 美金,那是不是有人愿意以几十倍的溢价去付? 我觉得这是黄仁勋提出的非常重要的点。 他肯定是看到有人为了达到更好效果愿意这样做。 这一下子扩大了TAM(可触达市场)。 今天讲Token,关注的是每天的消耗量及增长速度。
如果当前市场按照大模型使用Token的单价去算,这是一个数字。 如果按照 LPU价值去算,那整个市场价值一下子大了几十倍,想象力就变得非常大。 大家会想到我投了那么多的Capex(资本支出),投了那么多的公司,未来是有机会以几十倍去变现,而不是说今天以几块钱的方式,这是LPU最激动人心的地方。 倒不是说它的技术流派,因为之前已经有人在做了,而且异构本来就是个趋势,不是省钱,是为了赚钱。 刘昊飞:LPU可以说是颠覆性设计。 我们去年年底就花时间在研究LPU,发现其最大的特点在于设计结构更简化。 那简化的好处是什么? 大家都知道GPU比CPU(结构)更简化,所以它做矩阵运算就非常快。 而LPU比GPU更简单,尤其体现在存储方面。 刚才也提到LPU不需要HBM,由此数据交换的延迟、显存成本大幅降低,效率随之变高。 NVIDIA这次专门强调LPU的原因在于,小龙虾出来后,这几个月的Token使用量呈指数级上涨,那么如何有效降低推理成本和输出的延迟变得很重要。 其实我这次来的一个很重要的目的就是想知道英伟达如何看待LPU。 在现场能看到很多人围着展区听分享,你想照张完整的照片都有些困难。 所以我觉得这种架构设计确实值得关注。
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.


