被遗忘十年的LPU翻红,一门新生意成立了吗?
Quick Answer
The resurgence of Groq's LPU in NVIDIA's Vera Rubin platform marks a shift towards specialized chips for AI inference, with Groq's SRAM bandwidth reaching 150 TB/s, significantly outperforming traditional HBM solutions.
Quick Take
The resurgence of Groq's LPU in NVIDIA's Vera Rubin platform marks a shift towards specialized chips for AI inference, with Groq's SRAM bandwidth reaching 150 TB/s, significantly outperforming traditional HBM solutions. As the industry embraces heterogeneous computing, the viability of LPU as a standalone business remains uncertain amid rising competition and evolving market demands.
Key Points
- Groq's LPU integrated into NVIDIA's Vera Rubin platform enhances AI inference capabilities.
- LPU's SRAM bandwidth is 150 TB/s, 45 times higher than H100 HBM3.
- Industry sees a shift towards specialized chips for different AI tasks.
- Concerns arise over LPU's long-term market viability amid increasing competition.
- Dynamic architectures like MoE challenge the static advantages of LPU.
Article Content
From source RSS / original summary当AI从训练走向推理时代之后,单一通用架构开始触及效率边界。 变化由此发生——“只用GPU打天下”的故事难以延续,专业化分工逐渐成为芯片行业的共识。 越来越多企业尝试将不同计算任务拆解给不同类型芯片处理。 谷歌在新一代TPU上推进训推分离;Anthropic押注存内计算架构;SambaNova推出“CPU+GPU+RDU”系统方案;Cerebras则选择以晶圆级芯片挑战传统GPU集群。 其中最具代表性的案例,是被黄仁勋“捧红”的Groq。 随着Groq LPU(Language Processing Unit,语言处理单元)被纳入英伟达Vera Rubin平台,原本被视为“小众路线”的LPU第一次进入主流AI基础设施体系。 对于行业而言,这不仅宣告了一种新芯片获得认可,更意味着推理时代开始接受不同芯片处理不同任务的逻辑。 国内市场同样感受到这股风向。 围绕数据流架构、SRAM高带宽存储以及其他推理加速方向,各类新方案不断涌现,想要讲出自己那版LPU故事的玩家也接连冒头。
(更多技术故事和商业内幕,欢迎添加作者微信Evelynn7778交流)当AI芯片专业化分工趋势日渐明朗,LPU究竟是一种阶段性热点,还是推理时代长期存在的新工种? 而当赛道逐渐变得拥挤,LPU或许是一种成立的需求,但独立LPU公司会是一门成立的生意吗? 被遗忘十年的LPU,为什么突然红了? 用25%的Groq LPU搭配75%的Vera Rubin来应对源源不断的高价值Token生成需求,这是英伟达给出的最新方案。 打法背后,是Agent时代对规则的改写:AI应用不再只是一次性问答,持续推理的工作流正在引发Token洪流;基础设施竞争不断升维,从单芯片性能比拼迈向系统层级的效率优化。 于是,Transformer推理过程中的每一道工序开始被重新丈量和打磨。 最先被看清的是Prefill与Decode——一个更关注算力密度,另一个更依赖响应速度和系统吞吐能力。 但行业很快发现,即使在Decode内部,不同工作负载的最大诉求也不尽相同:Attention(注意力机制)忙于搬运和读取海量KV Cache,大量Token生成任务则落在FFN(前馈神经网络)身上。 当差异被看见,分工协作的需求也愈发迫切。
不同类型芯片开始进入推理系统,各自承担最擅长的工作。 Groq LPU正是在这一背景下重新进入市场视野,作为Vera Rubin平台中的新增角色,以LPX系统形式专攻FFN相关工作流。 某种程度上,这也释放了“推理不再绑定单一架构”的信号。 “超低延迟推理等不适合GPU处理的极端场景,就可以交付给LPU。 ”芯片架构师方晓表示,“相当于开了一条高速通道专门服务客户。 ”事实上,LPU并非横空出世。 Groq成立于2016年,其核心架构设计同样诞生于上一个AI时代。 但过去很长时间里,这类专用芯片始终没有进入主流市场。 转折点出现在系统级创新成为行业共识之后。 据悉,2025年初英伟达首次向合作伙伴开放NVLink互联生态后,Groq主动寻求接入机会,希望获得这一原本用于GPU之间通信的协议支持。 随着GPU与LPU协同运行的可能性得到验证,双方合作开始具备现实基础。 而英伟达自身战略的变化,带来更大的想象空间。 AI系统架构师徐先生观察到,未来针对Transformer推理范式设计的新型芯片会越来越多。 “通过单颗芯片实现领先的时间正在缩短。 ”他表示,“而凭借系统级架构创新,英伟达的领先优势很可能从几个月拉长到1-2年。
”换句话说,对于英伟达而言,引入LPU并非为了取代GPU,而是希望找到更适合承担特定推理任务的角色。 (关于当前业内异构方案的真实落地情况,欢迎添加作者微信Evelynn7778交流)专业化分工为LPU带来新的机遇,但能否把机会变成市场,却是另一回事。 当越来越多企业开始扎堆LPU赛道,一个更现实的问题正浮出水面:LPU被寄予厚望的技术优势,含金量到底有多大? LPU的两张王牌,有多少含金量? LPU最常被提及的“看家”本领之一,是Groq引以为傲的编译器及其静态调度能力。 方晓认为,外界对LPU最大的误解,是将其优势简单归结为单芯片性能。 “单芯片的确定性延迟并非LPU独有,所有ASIC都能做到。 真正难的是多芯片间、机柜间和集群间的精确编排。 ”在她看来,这才是LPU最深的护城河,也是国内非大厂企业很难突破的壁垒。 但曾在大厂负责芯片软件栈设计的Tim对此持保留态度,认为编译能力的价值与模型形态密切相关。 在CNN时代,模型结构丰富、算子种类繁多,编译器拥有许多大显身手的可能。 但随着Transformer成为行业主流,大模型的核心算子不断收敛,大量层结构高度重复。 “这反而收窄了编译器能够发挥的优化空间。
”Tim直言。 与此同时,MoE(Mixture of Experts,混合专家)等动态架构的兴起,也在削弱全静态系统的优势。 “现在这个时代,几乎所有顶流模型都有MoE结构。 ”Tim说,“推理时具备的动态性,对全静态系统并不是特别友好。 ”他进一步解释,不同请求在推理过程中激活的专家组合并不相同,而这些信息在编译阶段无法提前获知。 对此,Mark也表达了类似观点,他创办的非GPU芯片企业,目前已获得多家头部美元基金投资。 “为了保证系统始终按照预定节奏运行,编译器只能先为最坏情况做打算。 ”他指出,“被固化的硬件侧也需要保留一定冗余来维持整体同步,这使得部分理论优势会被抵消。 ”围绕LPU的软件能力,业内尚未形成统一结论。 相比之下,另一张存储“王牌”SRAM似乎更容易被量化。 不少从业者表示,这才是LPU最核心的竞争力。 英伟达公开的数据显示,单颗Groq 3 LPU SRAM带宽为150 TB/s,大约是采用H100 HBM3的45倍。 在256颗LPU组成的LPX机柜中,总带宽进一步被推高至40 PB/s(注:1 PB/s=1000 TB/s)。
除高带宽能力外,芯片行业从业者杨越认为这一路线的优势还在于绕开了HBM供应链和先进封装的限制。 在当前AI芯片成本结构中,存储的影响力持续上升。 Epoch AI数据显示,HBM占AI芯片组件成本的比例已经从2024年初的52%增长至2025年底的63%。 当越来越多成本被HBM吞噬时,市场开始重新审视SRAM路线的价值,但分歧依旧存在。 资深芯片产品负责人顾玥直言:“SRAM其实是LPU巨大的缺陷。 ”她认为,SRAM最大的特点是快,但代价是容量小、单位成本高。 “它更像芯片里的法拉利,卖点是性能,而不是性价比。 ”顾玥形容道。 不过,IO资本创始合伙人赵占祥并不完全认同这种看法。 他认为,单纯比较存储单价并没有太大意义。 “相比SRAM只有几百MB,HBM动辄几十GB甚至上百GB。 即便SRAM单位价格比HBM贵,但在容量差距面前,HBM最终承担的总成本反而可能更高。 ”SRAM也有自己的容量焦虑。 有十余年经验的芯片计算架构专家晓东指出,SRAM直接集成在芯片内部,需要与计算单元共享同一块硅片。 这意味着面积分配始终是一道难题。 “DRAM一个存储单元只需要1个晶体管和1个电容,而SRAM需要6个晶体管。
”他进一步补充,“同样面积下,SRAM能存放的数据天然更少。 ”公开数据显示,Groq 3 LPU集成约500MB SRAM,而TPU 8i约为384MB。 虽然Cerebras WSE-3凭借晶圆级集成方案将容量提升至44GB,但代价是良率和成本的双重暴击。 讨论SRAM便宜还是昂贵有不同的角度。 而更值得拷问的其实在于:推理时代究竟该用什么指标衡量价值? Mark认为是Token。 在他看来,一场从“系统成本”到“Token成本”的评价体系切换正在发生。 过去几年,行业习惯讨论“多少张卡可以部署一个模型”。 因此,大量厂商都在强调用更少GPU完成部署。 “但当推理部署规模大到一定程度时,最小系统成本已经不再是首要考量。 ”Mark说。 他举例称,一些方案虽然可以用8张GPU完成模型部署,但推理成本未必最低。 而在DeepSeek公开采用144张卡构建推理集群后,行业开始意识到另一种可能性。 “尽管整体系统成本显著提高,但更大的集群规模换来了更高的带宽、更高的Token吞吐量以及更低的单位Token成本。 ”Mark分析。 由此SRAM的价值也将被重新考量。 只是这套逻辑是否能够长期成立,仍有待检验。
分歧尚未消失,LPU的优势代价也真实存在。 但至少有一点已经形成共识:LPU已经拿到了推理系统的入场券。 而其接下来要回答的,是市场一直追问的另一个现实问题——这是一门能够持续赚钱的生意吗? (有关推理加速芯片的更多前景,可添加作者微信Evelynn7778互通有无。 )推理时代需要「法拉利」,但谁来买单? 在获得英伟达加持之前,Groq已凭借独立的端到端推理部署能力,拿下沙特推理基础设施项目、在欧洲部署大型算力中心,并进入Meta的Llama生态。 从这个角度看,Groq的能力并不完全来自技术。 “选择押注这条赛道的企业一定要有目标客户。 ”赵占祥解释,“因为软件再怎么编译,最终还是要针对具体应用进行优化。 ”换句话说,LPU的商业化难点不只在于技术实现,还取决于是否有人愿意买单。 但一个不容忽视的问题是——最需要LPU的人,往往也最有能力自研。 徐先生观察到,已经有大模型公司和互联网大厂开始行动。 “相对于GPU来说,LPU会简单很多,只要给一两年时间就能做出来。 ”他表示。 (更多大厂推理加速芯片自研内幕和进展,欢迎添加作者微信Evelynn7778一起交流)但潜在客户变对手还不是最坏的消息。
“创企想靠LPU活不下去,需要找到‘大众’。 英伟达是在拥有‘大众’的基础上,再增加一辆‘法拉利’,属于锦上添花。 ”顾玥直言。 Mark指出,这种分工未来还会继续深化。 “Attention和FFN之间的解耦程度很高,中间通信带宽要求并不高。 ”因此在他看来,异构系统并不会带来外界想象中的巨大成本。 Tim也认为,未来推理方案大概率会以异构形态存在。 “当每一点优化都能带来上亿美元回报时,研发成本很容易被摊薄。 ”不过即便异构趋势成立,市场对于独立LPU公司的前景依然存在疑虑。 据赵占祥观察,很多企业已经在探索类似路线——用大容量SRAM和分布式存储来完成推理的工作负载。 “只不过现在统一叫LPU”。 他一语道破。 (作者长期跟踪相关项目进展,欢迎添加微信Evelynn7778交流)方晓联想到DPU的发展历程。 2020年前后,随着DPU概念兴起,大量创业公司涌入赛道,几年过去后,不少企业转型。 在她看来,LPU有可能重演类似剧本,原因之一在于漫长的市场培育周期。 赵占祥解释,任何一种新计算架构都需要时间沉淀,恰如英伟达GPU历经十年才实现大规模普及。 但这对于创业企业来说,却是最致命的风险。
作为高度专用化的ASIC,LPU天然依赖当前主流模型架构。 如果未来基础模型改弦更张,相关优化价值也可能被重新评估。 对此,Mark也从另一角度给出回应:“这反而给了创业公司机会,因为大厂未必愿意承担这种高风险。 ”而晓东则相对乐观。 他指出,从CNN时代的AlexNet引爆现代深度学习浪潮开始,过去十余年AI范式虽然不断演进,但底层逻辑并未发生根本改变。 未来的新架构更可能是Transformer的Plus版。 Tim也给出了类似判断:“只要模型仍然需要从海量知识中筛选、调用和组合信息,对高带宽的需求就不会消失。 基于这个需求来设计芯片,即使Transformer被替代,芯片本身也不会因此作废。 ”市场从不缺乏新芯片的故事。 真正决定一家LPU企业能否活下来的,未必是它拥有多先进的架构,而是它能否在市场成熟之前找到客户、场景与生态。 毕竟,推理时代或许确实需要越来越多“法拉利”。 但对于大多数创业公司而言,比造出一辆法拉利更难的,是找到那个愿意长期购买“大众+法拉利”组合的人。 作者持续关注AI算力芯片上下游,更多信息可添加作者微信Evelynn7778交流。 #文中方晓、顾玥、杨越、晓东、Mark和Tim均为化名。
雷峰网雷峰网
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.
More from 雷峰网芯片
See more →
给 AI 建「流水线」,九章云极看清了什么?
JiuZhang Cloud's AI Factory aims to revolutionize AI deployment by standardizing computational power measurement and enhancing model production efficiency. With the introduction of DCU (standardized computational unit), the company addresses the industry's infrastructure gap, enabling scalable AI solutions that can adapt to various business needs.



