
首次披露!DeepSeek V3 发布软硬一体协同训练论文,公开“降成本”秘诀
Quick Take
DeepSeek V3 introduces a cost-effective training model using only 2,048 NVIDIA H800 GPUs, achieving state-of-the-art performance through innovative techniques like FP8 mixed precision and multi-head latent attention. This model addresses memory efficiency and computational costs, making large-scale AI training accessible for smaller teams.
Key Points
- DeepSeek V3 achieves advanced performance with only 2,048 NVIDIA H800 GPUs.
- Introduces FP8 mixed precision training, halving memory consumption compared to BF16.
- Multi-head latent attention reduces KV cache size, improving memory efficiency.
- MTP framework enhances inference speed by 1.8 times without sacrificing accuracy.
- Node-limited routing strategy optimizes communication bandwidth during training.
Article Content
From source RSS / original summary就在刚刚,DeepSeek团队发布最新论文《洞察 DeepSeek-V3:规模的挑战和对AI架构硬件的思考》。 论文链接:https://arxiv. org/pdf/2505. 09343在保持性能不变的情况下,论文采用了双重视角——跨越硬件架构和模型设计,通过研究这种协同作用,探索 DeepSeek-V3 如何实现经济高效的大规模训练和推理。 随着 OpenAI o1/o3、DeepSeek-R1、Claude-3. 7 Sonnet 等先进模型的出现,大规模架构和上下文推理的进步强调了对更快、更高效推理的需求。 因此,计算资源的需求也在逐步扩大。 DeepSeek 的出现证明了有效的软硬件协同设计可以实现大型模型的成本效益训练,为较小的团队提供公平的竞争环境。 基于这一传统,DeepSeek-V3 代表了成本效益训练的新里程碑,仅需 2,048 个 NVIDIA H800 GPU 就实现了最先进的性能。 DeepSeek-V3 的实践和见解展示了如何充分利用现有硬件资源,为更广泛的 AI 和 HPC 社区提供宝贵的经验教训。
论文章节的主要内容如下:DeepSeek 模型的设计原则低精度驱动设计以互联为驱动的设计大规模网络驱动设计面向未来的硬件架构设计DeepSeek 模型的设计原则如下图 所示,DeepSeek-V3 采用 DeepSeek-MoE 和多头潜在注意力 (MLA)架构,通过压缩键值 (KV) 缓存大大减少了内存消耗。 此外,DeepSeek-V3 还采用了 FP8 混合精度训练,显著降低了计算成本。 这些创新旨在解决LLM规模中的三个核心挑战——内存效率、成本效益和推理速度。 LLM 通常需要大量的内存资源,内存需求每年增长 1000% 以上。 相比之下,高速内存(例如 HBM)容量的增长速度要慢得多,通常每年不到 50%。 与使用 BF16 进行权重的模型相比,FP8 将内存消耗显著降低了一半,有效缓解了 AI 内存挑战。 DeepSeek-V3 还采用了多头潜在注意力 (MLA),它使用投影矩阵将所有注意力头的 KV 表示压缩成一个更小的潜在向量,该矩阵与模型联合训练。 在推理过程中,只需要缓存潜在向量,与存储所有注意力头的 KV 缓存相比,显著减少了内存消耗。
除了 MLA 之外,DeepSeek 还提出了其他几种方法来减小 KV 缓存的大小:共享 KV:多头共享一组 KV 配对,从而显著压缩了 KV 存储。 窗口 KV:对于长序列,缓存中只保留 KV 配对的滑动窗口。 量化压缩:KV 配对使用low-bit进行存储,进一步减少了内存使用。 对于稀疏计算,DeepSeek 还开发了 DeepSeek-MoE 架构,MoE 模型的优势在于两个方面:第一,减少训练的计算要求:MoE 架构的主要优势在于它能够显著降低训练成本。 通过选择性地仅激活专家参数的子集,MoE 模型允许参数总数急剧增加,同时保持计算要求适中。 如图表2所示,DeepSeek-V3 的总计算成本约为每个令牌 250 GFLOPS,而 72B 密集模型需要 394 GFLOPS,405B 密集模型需要 2448 GFLOPS。 这表明 MoE 模型实现了与密集模型相当甚至更好的性能,同时消耗的计算资源减少了一个数量级。 第二,个人使用和本地部署的优势:由于每个请求只激活了一个参数子集,因此内存和计算需求大大减少。 例如,DeepSeek-V2(236B 参数)在推理过程中仅激活 21B 参数。
这使得配备 AI SoC 芯片的 PC 能够实现每秒近 20 个令牌 (TPS)。 相比之下,具有相似能力的密集模型(70B 参数)在类似硬件上通常只能达到个位数的 TPS。 除此之外,为了最大限度地提高吞吐量,DeepSeek-V3 从一开始就被构建为利用双微批处理重叠,有意将通信延迟与计算重叠。 它将 MLA 和 MoE 的计算解耦为两个不同的阶段,当一个微批处理执行 MLA 或 MoE 计算的一部分时,另一个微批处理同时执行相应的调度通信。 相反,在第二个微批处理的计算阶段,第一个微批处理经历组合通信步骤。 这种流水线化方法实现了全对全通信与正在进行的计算的无缝重叠,确保 GPU 始终保持充分利用。 此外,在生产中,V3 还采用预填充和解码解聚架构,将大批量预填充和延迟敏感的解码请求分配给不同的专家并行组大小,这可以最大限度地提高系统吞吐量。 虽然 MoE 模型表现出良好的可扩展性,但仅通过增加硬件资源来实现高推理速度的成本很高。 因此,软件和算法也必须有助于提高推理效率。 DeepSeek-V3 引入了多标记预测 (MTP) 框架,该框架同时增强了模型性能并提高了推理速度。
MTP 可以让模型能够以较低的成本生成额外的候选标记并并行验证,缓解了解码步骤中标记顺序生成的瓶颈,在不影响准确性的情况下显着加快了推理速度。 真实世界的实践数据表明,MTP 模块预测第二个后续令牌的接受率为 80% 到 90%,与没有 MTP 模块的场景相比,生成 TPS 提高了 1. 8 倍。 此外,通过预测每步多个令牌, MTP 增加了推理批量大小,这对于提高 EP 计算强度和硬件利用率至关重要。 低精度驱动设计虽然 GPTQ 和 AWQ 等量化技术已将位宽减少到 8 位、 4 位甚至更低,但是这些技术主要应用于推理期间以节省内存,而不是在训练阶段。 在 DeepSeek-V3 之前,没有利用 FP8 进行训练的开源大型模型。 DeepSeek 通过基础设施和算法团队之间的深入合作,为 MoE 模型开发了一个与 FP8 兼容的训练框架,在训练管道中使用 FP8 精度前向和后向过程的计算组件。
虽然 FP8 在加速训练方面具有巨大潜力,但需要解决几个硬件限制才能充分利用其功能:FP8 累积精度: FP8 在 Tensor Core 中使用约束累加精度,这会影响训练大型模型的稳定性细粒度量化挑战:细粒度量化在传输部分结果时引入了大量的反量化开销,会导致频繁的数据移动,从而降低计算效率并使硬件利用率复杂化为了解决现有硬件的限制,DeepSeek 对未来的设计有以下建议:提高累积精度:硬件应改进并调整 Accumulation Register 精度到适当的值(例如 FP32),或支持可配置的 Accumulation Precision对原生细粒度量化的支持:硬件应该支持原生细粒度量化,使 Tensor Core 能够接收缩放因子并通过组缩放实现矩阵乘法,避免频繁的数据移动以减少去量化开销。 DeepSeek-V3 架构采用低精度压缩进行网络通信。 在 EP 并行期间,使用细粒度的 FP8 量化来调度令牌,与 BF16 相比,通信量减少了 50%,显著缩短了通信时间。 他们的建议是,为 FP8 或自定义精度格式定制的压缩和解压缩单元提供本机支持是未来硬件的可行方法。
这有助于最大限度地减少带宽需求并简化通信管道,能大幅提升 MoE 训练等带宽密集型任务的效率。 以互联为驱动的设计研究团队当前使用的 NVIDIA H800 GPU SXM 架构,基于 Hopper 架构,类似于 H100 GPU。 然而,它为了满足监管要求,降低了 FP64 浮点计算性能和 NVLink 带宽。 具体来说,H800 SXM 节点中的 NVLink 带宽从 900 GB/s 降低到了 400 GB/s。 这个节点内部带宽的显著下降对高性能工作负载带来了挑战。 为了解决这个问题,他们在每个节点都配备了 8 张 400G 的 Infiniband(IB)CX7 网卡,从而增强了向外扩展(scale-out)的能力,以弥补带宽不足。 为了应对这些硬件限制,DeepSeek-V3 模型在设计时结合了多项考虑,既贴合了硬件的优势,也规避了其局限。 为适配 H800 架构的硬件限制,DeepSeek-V3 在并行策略上还进行了如下优化:避免使用张量并行(TP):在训练阶段,TP 因为受限的 NVLink 带宽效率低下而被禁用。
但在推理阶段,TP 可以被选择性地启用,用于降低延迟和提升 TPOT(Tensor Parallel Optimized Transformer)性能。 增强的流水线并行(PP):采用 DualPipe 机制,以便将注意力计算和 MoE 计算与通信重叠。 这也有助于减少流水线空泡,并在多个 GPU 间平衡内存使用,从而提升整体吞吐量。 加速的专家并行(EP):借助 8 张 400Gbps 的 Infiniband(IB)网卡,系统可以实现超过 40GB/s 的全互联通信。 然而在 H800 架构中,节点内(intra-node)通信与节点间(inter-node)通信的带宽差异约为 4:1。 具体来说,NVLink 提供 200GB/s 的带宽(实际可用约 160GB/s),而每张 400Gbps 的 IB 网卡实际带宽约为 50GB/s(考虑小消息和延迟因素后,计算为 40GB/s 的有效带宽)。 为了充分利用更高的节点内带宽,模型架构特别在 TopK 专家选择策略中,与硬件协同设计。 设想一个系统包含 8 个节点(共 64 张 GPU),以及 256 个路由专家(每张 GPU 有 4 个专家)。
在 DeepSeek-V3 中,每个 token 会被路由到一个共享专家和 8 个路由专家。 如果这 8 个目标专家平均分布在所有节点上,那么 token 在 IB 上的通信成本将是 8t(t 为传输一个 token 所需时间)。 但如果利用 NVLink 的更高带宽,将路由到同一节点的 token 先在节点内通过 NVLink 传输,再由该节点的 GPU 使用 IB 转发到其他节点,这种 NVLink 中继方式可以显著减少 IB 流量。 当目标专家分布在 M 个节点时,这种策略可将通信成本降低为 Mt(M < 8)。 为实现这一策略,DeepSeek-V3 引入了节点受限的专家路由策略(Node-Limited Routing)。 具体来说,研究人员将 256 个路由专家分成 8 组,每组 32 个专家,并且每组部署在同一个节点上,而在实际部署时,他们使用算法保证每个 token 最多只会被路由到最多 4 个节点。 这种做法有效地缓解了 IB 通信的瓶颈,提升了训练期间通信带宽的使用效率。
虽然节点受限路由策略(Node-Limited Routing)在一定程度上降低了通信带宽的需求,但由于节点内(NVLink)和节点间(IB)通信带宽之间存在差异,这也使得通信流水线内核的实现变得更为复杂。 在实际操作中,GPU 的流处理器( SM)既用于处理网络消息(例如填充 QPs 和 WQEs),也用于通过 NVLink 进行数据转发,这会消耗大量计算资源。 例如,在训练过程中,H800 GPU 上多达 20 个 SM 被分配给与通信相关的操作,从而减少了用于实际计算的资源。 为最大化在线推理的吞吐量,研究团队在 EP(专家并行)全互联通信中完全采用 NIC RDMA,实现通信与计算资源的分离,避免 SM 资源竞争,从而提升计算效率。 这也凸显了 RDMA 的异步通信模型在计算与通信重叠处理方面的优势。
当前,在 EP 通信(特别是 combine 阶段的 reduce 操作与数据类型转换)中,SM 执行的主要任务包括:数据转发:聚合目标为同一节点中多个 GPU 的 IB 流量,实现 IB 与 NVLink 域之间的数据桥接;数据传输:在 RDMA 缓冲区(GPU 注册内存区域)与输入/输出缓冲区之间传输数据;规约操作:执行 EP combine 所需的规约操作;内存布局管理:对穿越 IB 和 NVLink 域的分块数据进行精细化内存布局管理;数据类型转换:在 all-to-all 通信前后执行数据类型的转换。 研究团队还给出了一些如何在编程框架层面实现 scale-up 与 scale-out 的融合建议:统一网络适配器:设计能够同时连接 scale-up 与 scale-out 网络的 NIC(网络接口卡)或 I/O Die。 这些适配器应具备基本的交换功能,比如能将来自 scale-out 网络的包转发到 scale-up 网络中的特定 GPU。 可以通过一个 LID(本地标识符)或带有策略路由的 IP 地址实现。 专用通信协处理器:引入一个专用协处理器或可编程组件(如 I/O die),用于处理网络流量。
这种组件可将报文处理任务从 GPU 的 SM 上卸载,避免性能下降,并具备硬件加速的内存拷贝能力,以提升缓存管理效率。 灵活的转发、广播和规约机制:硬件应支持灵活的转发、EP 分发阶段的广播操作、以及 EP 聚合阶段的规约操作,这些机制需跨越 scale-up 与 scale-out 网络运行。 这样可以复现我们当前基于 GPU SM 的实现逻辑,不仅提升了有效带宽,也减少了网络操作的计算复杂度。 硬件同步原语(Hardware Synchronization Primitives):提供更精细粒度的硬件同步指令,用于处理内存一致性问题或乱序报文抵达问题。 这将替代基于软件的同步机制(如 RDMA 的完成事件),后者通常会引入额外的延迟并增加编程复杂度。 基于 acquire/release 模型的内存语义通信是一个有前景的解决方案。 他们认为,通过实现上述建议,未来的硬件设计将能够显著提升大规模分布式 AI 系统的效率,同时简化软件开发的复杂度。 大规模网络驱动设计在 DeepSeek-V3 的训练过程中,研究团队部署了一个“多平面胖树”(Multi-Plane Fat-Tree, MPFT)scale-out 网络。
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.
More from 雷峰网 AI 学术
See more →万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
DeepSeek's innovative use of large-scale reinforcement learning (RL) over traditional supervised fine-tuning (SFT) significantly enhances model reasoning capabilities, as discussed at AIR 2025 by researchers from institutions like UCL and CMU. Key findings include the effectiveness of preference fine-tuning and the introduction of the Goedel-Prover model for formal mathematical proofs, achieving state-of-the-art performance.
