引入LPU的英伟达，是在补强，还是在拆自己的护城河？｜GTC观察

4/3/2026

·~5 min·4/3/2026·zh·4

Quick Answer

Quick Take

NVIDIA's introduction of the LPU in collaboration with AWS aims to enhance AI inference capabilities while addressing energy efficiency, marking a shift from economic to physical constraints in computing. The LPU's SRAM architecture significantly reduces data transfer times, potentially revolutionizing the market for AI tokens, as highlighted by Huang Renxun's emphasis on energy efficiency over cost.

Key Points

NVIDIA's LPU uses SRAM architecture to reduce data transfer times significantly.
The LPU's introduction coincides with a massive chip procurement deal with AWS.
Huang Renxun emphasizes energy efficiency, shifting focus from cost to performance.
Market potential for AI tokens could increase dramatically with LPU's capabilities.
The Rubin platform now includes LPU, enhancing NVIDIA's AI inference offerings.

Article Content

From source RSS / original summary

GTC 2026落幕当天，英伟达透露早先与亚马逊云科技（AWS）达成的大规模芯片采购协议，将在2027年前完成交付。黄仁勋在大会上提到的2027年万亿美元营收目标，正在变成真金白银的合同。但真正让行业侧目的，是Groq芯片首次进入AWS数据中心——LPU到底蕴藏多大价值，值得英伟达如此力推？（LPU到底是不是推理最优解？欢迎添加作者微信 Evelynn7778 探讨交流）带着这个疑问，我们（公众号：雷峰网）与三位半导体与AI算力领域的老兵聊了聊，他们分别是：徐凌杰：魔形智能CEO，曾任职于NVIDIA、AMD、三星北美研究院、阿里云，并联合创办了壁仞科技罗彤：芯动科技首席技术官，历任力积存储中国区总经理、爱普存储技术（杭州）总经理、德商柏狮电子亚洲区市场与销售副总、日商凸版半导体新加坡董事总经理刘昊飞：盛景嘉成创投创始合伙人，曾任中国移动系统架构师、汉能投资集团执行董事黄仁勋的表达欲仍在延续。 GTC落幕后，他依然四处讲着OpenClaw的时代象征、Rubin机架的生态议题、以及Token经济学的故事。当“十年寒窗无人问”的Token一夜成名，这场GTC究竟给中国芯片厂商留下了什么启示？

谈芯片：LPU背后：从经济瓶颈到物理瓶颈，SRAM重回牌桌“推理时代”已经到来。两个月前在CES大会上以六芯组合面世的Rubin平台，这次升级为七芯——新加入的，是专为AI推理设计的专用芯片LPU。这是英伟达获得Groq技术授权后，后者芯片首次出现在其产品组合中。在刘昊飞看来，本次大会为LPU入场的造势，离不开全民养虾的热潮。他表示，当Token使用量呈指数级增长时，降低推理成本与输出延迟变得至关重要，而结构比GPU更简化的LPU便显出优势——LPU的一大亮点，是其SRAM（静态随机存取存储器）架构大幅减少了数据搬运时间。罗彤指出，LPU采用的SRAM架构，此前曾因成本是DRAM的6倍而被替代。但RISC-V 鼻祖David Patterson说过：“一个小型SRAM的能效是DRAM的128倍。 ”这意味着，当衡量标准从成本转向能耗时，SRAM的优势将得以重现。罗彤进一步解释，过去行业关注的是“一美元能买多少Token”，这是经济学的逻辑。但在这次GTC上，黄仁勋特别强调“每焦耳能产生多少Token”，显然是摩尔定律的失效让他有了新的思考——物理极限的刚性不是其他因素可以比拟的。

因为地球上允许接受的能量是有限的，谁能用更少的能量产生Token，谁就能在算力峰值上领先。这正是从经济瓶颈时代进入物理瓶颈时代后的新规则。不过，徐凌杰也指出，Groq 3 LPU采用的纯SRAM架构并非Groq一家独有，阿里、Graphcore等公司都涉猎过；且“GPU+LPU”的异构架构也非首创，国内大厂早有尝试，异构也是行业的演进方向。尽管如此，他认为，“在大模型不同阶段，用不同的芯片达到最好的效果，这个做法是毫无疑问的。 ”以去年被提出的CPX为例，过去其与HBM版本的芯片比起来成本显然大幅下降，但在GDDR也涨价的当下，CPX的“性价比”故事是否讲得通已经存疑。（CPX当前性价比表现如何？可添加作者微信 Evelynn7778 交流）或因为此，CPX在此次的GTC上销声匿迹。但他表示，在未来合适的时候，CPX可能还会“冒出来”。据徐凌杰观察，此次GTC传递出的更重要的信息是：黄仁勋提出Token分层定价，这意味着只要有人愿意买单，就能获得最极致的性能。他直言，如果按照LPU的价值去计算，TAM（可触达市场）价值一下子大了几十倍，这是LPU最激动人心的地方。然而，LPU带来的变革也不是彻底的。

一位专家曾向罗彤表示，真正与众不同的存在是英特尔的CPU、英伟达的GPU和谷歌TPU，其他PU只是类似将X、Y、Z三个基本元素通过不同比重进行组合、最终调制而成的混合物。当前产业链最需要攻克的难题，还是提升芯片最基本的计算、存储和连接单元的效率，并达到降本效果。谈架构：加码整机柜算力，英伟达70%毛利率能否持续从Blackwell NVL72到Rubin的机架设计，英伟达持续加码“整机柜算力”的叙事。训练时代的王者在推理时代打出这套组合拳，意欲为何？这也是三位嘉宾热议的核心。在刘昊飞看来，这是英伟达在推理时代进一步占据客户心智地位的体现；而在徐凌杰看来，这种提高自我门槛的叙事选择，本质是为了提高效率。随着模型参数膨胀，Token需求量激增，算力成本也急剧上升。 “稀疏化激活”的MoE模型架构通过降低单Token计算量解决了成本问题，但也随之衍生出“专家并行”等各种并行需求。由于单芯片面积有限，MoE模型往往需要上百张卡协同工作。为了保障芯片间的高效通信，将各类芯片通过超节点耦合在一起，便成为顺理成章的选择。但做超节点绝非易事。

徐凌杰留意到，在CES大会上，黄仁勋前脚刚展示NVL72通过无缆化（cable less）设计将原本两小时的组装时间缩短至几分钟，AMD董事会主席及首席执行官苏姿丰后脚推出的Helios产品，采用的还是英伟达两年前的互联方案——可见，大家都在跟进，但技术变化一日千里。（当前国产超节点建设有何新进展和挑战？欢迎添加作者微信 Evelynn7778 交流）技术迭代如此之快，那英伟达70%的毛利率未来还能否持续？罗彤认为，英伟达不是光有技术，而是具备将技术转化为长期盈利的能力。在他看来，黄仁勋与哈萨比斯（DeepMind创始人）的商业逻辑很像，后者对DeepMind创建使命的阐释“解决智能，再用智能解决一切”在圈内广为流传。这体现在英伟达身上，就是其与台积电、EDA巨头Synopsys合作，在最尖端芯片的研发中利用自身算力改进芯片设计，通过“智能”反哺“智能”，飞轮由此高速转起来。不过，这种强掌控力，不仅基于对核心技术的布局，还源于英伟达对高价值环节的精准卡位。徐凌杰指出，英伟达未来也不会独占整条产业链，而是像华为、苹果那样，将毛利相对较低的部分交由供应链完成，做“只吃高增长部分的蛋糕”的链主企业。

同时，他也提醒，国产芯片公司不能盲目追求和英伟达一样的高毛利，要在芯片互联、模型软硬件调优等领域突破创新的同时，通过性价比打开市场，带动国产产业链一起成长。谈软件：“龙虾”配套开源模型，AI Factory下场和客户抢饭碗？养虾潮也蔓延到了大会上。映照黄仁勋所说的“每个公司都要有自己的OpenClaw战略”，英伟达为龙虾推出的企业版软件栈NemoClaw正式亮相，配套了最新一代Nemotron开源模型。在专门针对OpenClaw的基准测试PinchBench上，Nemotron任务成功率直逼Claude Opus 4. 6、GPT-5. 4。英伟达在软件栈上的持续迭代，是其在业内遥遥领先的一大护城河。在大家看来，英伟达此举也不是想与它的软件客户们“抢地盘”。罗彤指出，身为GPU公司的英伟达，必须自己先把应用跑通，才能有效引导客户使用。他打了个比喻：CPU像一把内部结构精巧复杂的手枪，任何人只要会扣动扳机就能上手；而GPU像一根棍子，结构简单，但需要掌握技巧才能发挥最大威力。徐凌杰则从商业逻辑角度补充：开源开放是英伟达的基本策略。

就像黄仁勋讲CUDA时第一个提到的词“Install base”（安装基础），英伟达需要足够多的客户来构筑生态基础。他借用谷歌收购安卓的例子，指出前者不直接靠后者赚钱，而是基于后者系统让自家搜索、浏览器等服务触达更多用户。同理，英伟达也可以用开源软件为硬件“带货”，这是前者最大的价值。如果有人想模仿，徐凌杰认为除非能做到整合人工智能底下“四层蛋糕”，放在国内语境来看，则需要产业链的互相配合。但是，当下国内芯片公司，还普遍面临软件团队规模小、客户服务能力弱等困境，难以支撑完整的生态建设。（当前有哪些突围之路值得借鉴？欢迎添加作者微信 Evelynn7778 探讨分享经验）不过，几位嘉宾也已指出了破局之道。在罗彤看来，国内芯片企业实力过于分散，与其几十家小公司各自为战，不如通过整合形成一两家有实力的平台型公司，集中资源搭建软件生态和客户服务体系。徐凌杰对此则较为乐观。他指出，国内大模型在开源层面已接近国外水平，通过从闭源模型蒸馏，有望取得更好的效果。与此同时，超节点所需的散热、互联、供电等工程化能力，正是国内芯片产业的优势所在，这让国内厂商有望以美国几分之一的成本进行量产。

以下是此次圆桌对话的精彩分享，雷峰网（公众号：雷峰网）在进行了不改原意的编辑整理：雷峰网·胡敏：各位对今年GTC最强烈的感受是什么？或者你们对这场会议印象最深刻的是什么？罗彤：黄仁勋特别强调”Token”这个概念，并且将（计量）单位从成本转成能量，即每焦耳能产生多少Token。从这次大会他开始提到物理极限而不是经济极限来看，我认为那真的是摩尔定律在供应端到了快要终结的时候。作为关注现实世界的科学，物理学与数学有一个很关键的不同：物理是要有边界条件才有答案，但早先没有人去看算力的能源边界，因为一次计算的能耗是很低的，大概一万亿分之一焦耳，而一焦耳相当于把一克水升高一度的能量。当下计算能耗这个概念变得重要是因为计算量变得很庞大，现在AI最主流的路线是把很多复杂问题解构成简单的数据问题，用蛮力去解决，对物理资源的压力就非常大，芯片的各种能力（算力，存力，运力）也被压得非常极限。最近DRAM内存荒、涨价非常离谱，都是因为达到了某种物理极限的结果，能源极限后就牵扯到了太空算力的问题。除了物理极限，黄仁勋花时间讲的还有和Open Claw配合的生态。他试图把各种要素拼在一起，形成更大的掌控能力。这也是双刃剑。

如果一个公司把所有能力都掌握在自己内部，对外界来说是更危险的，因为能控制的因素就少了。不过，英伟达今天之所以能涨得这么好，并不是因为把所有能力都抓在自己手里，而是分化在多方手里。没有任何一个实体可以单独造成巨大的损害，从安全角度考虑是好事。此外安装小龙虾的设备是很典型的端侧，执行轻量级的编排和调度，所以吃的内存不是很高，我认为（端侧）是未来的大方向。徐凌杰：在魔形智能成立的这两年里，我们一直在讲Token，之前对于投资人来说还是属于比较抽象的，直到去年下半年中国各种超级应用出来，再加上最近小龙虾火爆后，一把点燃了Token。我觉得这是在对的时机有对的机遇出现。 Token事实上是把人工智能蛋糕下面的四层完全封装在一起，能够整体地去做输出。那整体来讲，Token经济学变得非常清晰，毫无疑问这是一个非常大的产业。基于此，未来每个公司不仅要给员工发工资，还要另外配备Token，这是公司为智力付出的额外的成本。刚刚罗总讲到了物理的极限。

其实两年前我在参加台北电脑展的时候，英伟达就第一次用了一个词叫“technology limits”，也就是说行业整个发展方向不是在挤牙膏，（意味着）英伟达就是在贴着technology limits，甚至是说physical limits在往前走。刘昊飞：可以用“热”来形容。此时圣何塞午后在30度，正好赶上这一波技术热浪。现场可以说是摩肩擦踵，从早到晚，有点像90年代北京站春运。我住在Palo Alto，距离圣何塞大概三四十公里，酒店每晚价格换算成人民币在两三千块钱。雷峰网·胡敏：如何看待Vera Rubin平台这次引入的LPU？徐凌杰：这次NVIDIA把Groq的LPU引入，把Attention跟FFN做分离，事实上我也了解到国内的大厂之前是在做尝试的。这不是一个新的概念。在大模型的不同阶段，用不同芯片来达到最好的效果的做法是毫无疑问的。像去年提到的CPX，是RTX 6000 Pro的下一版，也是5090大内存版本的专业版，看起来相比HBM的版本芯片成本大幅下降。但今天GDDR也涨价了，那经济上还算得过来？ PCIe形态能否满足效率？我觉得CPX可能接下来也会再冒出来，只是在不同阶段起到不同的作用。

2016年Groq横空出世时，我在硅谷和创始人Jonathan进行过多轮交流。现在其实在市场上提供服务的话，还是19 年底流片、20年回来的第一代芯片。后面因为融资问题一直没有进展，直到碰到了大模型，Groq把这几百个芯片集联起来去做。那我想这个芯片肯定是有可取之处，但是从这个流派来讲，并不说只是他一家独有的，像之前我们在阿里做的含光芯片、我们的CTO金琛之前在的Graphcore（后面被软银收购）做的芯片，也都是纯SRAM架构。从这个产品本身来讲，我们看到的最大的信息不是性价比。黄仁勋反而讲的是另外一个观点，就是Token是分层的，只要有人愿意买单，我就给他最极致的性能。目前想在Groq这一采用SRAM架构的芯片上跑大模型，假设在放得下、极低延迟的情况下，那么是能给到比较好的Token质量。但当前它的容量比较小，不一定能跑起来。如果按照给出的价格区间，大众化的Token在 3 ~ 6 美金，那是不是有人愿意以几十倍的溢价去付？我觉得这是黄仁勋提出的非常重要的点。他肯定是看到有人为了达到更好效果愿意这样做。这一下子扩大了TAM（可触达市场）。今天讲Token，关注的是每天的消耗量及增长速度。

如果当前市场按照大模型使用Token的单价去算，这是一个数字。如果按照 LPU价值去算，那整个市场价值一下子大了几十倍，想象力就变得非常大。大家会想到我投了那么多的Capex（资本支出），投了那么多的公司，未来是有机会以几十倍去变现，而不是说今天以几块钱的方式，这是LPU最激动人心的地方。倒不是说它的技术流派，因为之前已经有人在做了，而且异构本来就是个趋势，不是省钱，是为了赚钱。刘昊飞：LPU可以说是颠覆性设计。我们去年年底就花时间在研究LPU，发现其最大的特点在于设计结构更简化。那简化的好处是什么？大家都知道GPU比CPU（结构）更简化，所以它做矩阵运算就非常快。而LPU比GPU更简单，尤其体现在存储方面。刚才也提到LPU不需要HBM，由此数据交换的延迟、显存成本大幅降低，效率随之变高。 NVIDIA这次专门强调LPU的原因在于，小龙虾出来后，这几个月的Token使用量呈指数级上涨，那么如何有效降低推理成本和输出的延迟变得很重要。其实我这次来的一个很重要的目的就是想知道英伟达如何看待LPU。在现场能看到很多人围着展区听分享，你想照张完整的照片都有些困难。所以我觉得这种架构设计确实值得关注。

Read on leiphone.com

Want this in your inbox every morning?

Daily brief at your local 8am — bilingual EN/中文, free.

Subscribe — it's free

More from 雷峰网芯片

See more →

雷峰网芯片

1d ago

FeaturedOriginal

Token账单迷雾：当每百万Token多少钱变成「比价陷阱」

AI Summary

The rise of Token billing in AI has transformed costs into operational expenses, with prices varying significantly due to factors like model efficiency, energy costs, and contract terms. As companies shift from GPU hours to Token-based billing, understanding the hidden complexities behind Token pricing becomes crucial for effective budgeting.

#LLM #AI Coding #GPU #Policy

引入LPU的英伟达，是在补强，还是在拆自己的护城河？｜GTC观察

Quick Answer

Quick Take

Key Points

Article Content

Want this in your inbox every morning?

More from 雷峰网芯片

Token账单迷雾：当每百万Token多少钱变成「比价陷阱」

把35B模型塞进32GB内存，智能体PC如何挑战端侧部署的「物理极限」？

给 AI 建「流水线」，九章云极看清了什么？

Related in this space

Synthetic Data Generation for Financial AI Research with NVIDIA NeMo

Deploy a Production-Ready NVIDIA AI-Q Blueprint on Oracle Cloud Infrastructure

Deploy Long-Context Reasoning and Agentic Workflows with MiniMax M3 on NVIDIA Accelerated Infrastructure