一颗288核的至强6+，为什么能同时运行500个Agent？

6/1/2026

·~4 min·6/1/2026·zh·9

Quick Answer

Intel's Xeon 6+ processor, featuring 288 efficient cores, can deploy 400-500 agents simultaneously, marking a shift in AI infrastructure from GPU dominance to CPU importance.

Quick Take

Intel's Xeon 6+ processor, featuring 288 efficient cores, can deploy 400-500 agents simultaneously, marking a shift in AI infrastructure from GPU dominance to CPU importance. This new architecture enhances task management and resource allocation, achieving up to 2.26x performance improvement over its predecessor.

Key Points

Xeon 6+ supports 288 cores, enabling high-density agent deployment.
Performance improves by up to 2.26x compared to previous models.
Intel's architecture shifts CPU-GPU ratio from 1:8 to potentially 1:1.
E835 Ethernet controller reduces power consumption by 28%-47% at 200G throughput.
Crescent Island GPU features 480GB memory, enhancing agent task performance.

Article Content

From source RSS / original summary

过去两年，AI基础设施行业有一个几乎无人质疑的共识：GPU决定AI的上限。从大模型训练到推理部署，产业的关注点几乎都围绕着GPU展开。显存够不够大、带宽够不够高、Token吞吐量能达到多少，成为衡量AI基础设施能力的核心指标。但Agent的出现，正在改变这套逻辑。与传统聊天机器人不同，Agent并不只是完成一次问答，而是需要持续执行任务。它需要调用工具、访问数据库、浏览网页、管理记忆系统，甚至不断创建和调度新的子Agent协同完成工作。当AI开始从生成答案转向执行任务，一个长期被GPU光环掩盖的角色重新回到了舞台中央——CPU。 Computex 2026台北国际电脑展期间，英特尔发布了首款基于Intel 18A工艺打造的数据中心处理器——至强6+（代号Clearwater Forest）。这款处理器拥有288个能效核（E-Core），还拥有一个非常吸引人的特性，在实际测试中，一颗288核至强6+可以轻松同时部署400至500个Agent。这背后折射出的，并不仅仅是一颗新CPU的发布，而是Agent时代AI基础设施底层逻辑的一次深刻变化。一颗CPU能同时运行500个Agent的关键是什么？

如果说ChatGPT时代的AI更像一个超级搜索框，那么Agent时代的AI更像一个数字员工。一个典型Agent任务往往包含多个环节：用户提出需求，Agent拆解任务，调用多个工具，查询知识库，启动多个子Agent协同处理，最终汇总结果并返回。整个过程中，真正负责生成内容的依然是GPU，但大量调度、编排、路由、资源管理以及任务协调工作，则落在了CPU身上。英特尔数据中心集团技术产品总监杨锦文表示："随着生成式AI带来的发展，CPU和GPU的配比正在从传统的1:8逐渐变成1:4、1:2，甚至1:1的场景，在部分强化学习场景中甚至出现了反转。 "1:1，甚至CPU比GPU更多——这个比例放在三年前几乎不可想象。而这，恰恰是至强6+发布的背景。对于Agent来说，CPU面临两个全新的挑战。第一个挑战是密度。企业希望在同样的机架空间内运行更多Agent，随着Agent数量增加，CPU需要同时管理大量任务调度和资源分配。第二个挑战是响应速度。 Agent运行过程中会频繁创建、启动和销毁任务实例，如果启动速度过慢，即便拥有足够算力，也难以满足实际业务需求。

英特尔SoC架构专家曾义说，"要满足Agent频繁创建、启动和销毁任务实例的特性，希望在同一颗CPU上部署更高密度的工作负载。这也是为什么至强6+是首款单SoC支持288个核的架构，这能够帮助我们以非常好的TCO（总体拥有成本）去满足Agent上的需求。 "为了实现这种密度，英特尔在至强6+上采用了英特尔Foveros Direct 3D的三维封装技术。具体而言，是将基于Intel 18A工艺制造的计算Tile，垂直堆叠在基于Intel 3工艺的底层Tile之上，再通过EMIB封装技术完成各模块之间的互联。整颗处理器由4个基于18A工艺的计算芯片构成，每个芯片包含24个核心，堆叠在3颗基底芯片上方，基底芯片则集成了片上网状互联架构、末级缓存和内存子系统——一共29个芯片组件，才构成了这颗288核的处理器。内存规格同样针对Agent以及传统负载的需求进行了强化：12通道DDR5，运行速率最高8000 MT/s，末级缓存高达576MB，比上一代产品提升超过5倍。 96条PCIe Gen 5通道则保证了跨设备的数据流动不会成为瓶颈。清楚至强6+的特性后，再来看至强6+能够用1颗芯片运行数百个Agent的原因。

杨锦文说，具体能运行多少个Agent，取决于具体的配置。云服务中常见配置，通常是"2个核心配4G内存"或"1个核心配2G内存"。按照这个标准，288核架构下同时部署400至500个Agent"已经是很常规的操作"。他也补充："上限取决于客户自身的诉求，以及要在什么样的SLA（服务等级协议）的服务协议下提供Agent服务。 "换句话说，Agent时代对CPU的新要求，不再只是跑得快，而是能同时管理更多任务。在性能提升方面，至强6+对比上一代产品整体性能最高提升2. 26倍，每瓦性能最高提升1. 55倍。与同类竞争产品相比，每线程性能和每线程每瓦性能均高出最多30%，后者是虚拟化数据中心工作负载最核心的评估维度。对于使用第二代至强的客户，升级至强6+的理由更加直接，服务器整合比可以达到9:1，物理空间减少近80%，能源节省73%。德意志电信旗下的T-Systems已将至强6+定位为其T-Cloud私有智能体AI基础设施的关键组件，理由正是海量内核数量与出色的能效。 Agent时代，网络成为瓶颈过去几年，AI产业形成了一种惯性思维：GPU决定一切。

但Agent正在让行业意识到一个新的现实——系统能力开始比单芯片能力更重要。一个Agent完成任务的完整流程是：CPU负责调度，GPU负责推理，网络负责数据交换，内存负责上下文保存，软件负责资源编排。任何一个环节出现瓶颈，都会影响最终的体验。英特尔执行副总裁兼数据中心事业部总经理Kevork Kechichian指出："AI的扩展之道，不在于各部件的叠加，而在于系统的协同运作。随着AI走向智能体时代，编排、并发与数据流动成为了新的限制因素。 "这也是为什么英特尔在发布至强6+的同时，还发布了全新的以太网E835控制器及网络适配器。因为当数百个Agent同时工作时，网络已经成为影响效率的重要因素。长期以来，网卡在AI基础设施中的存在感并不高。但当Agent开始频繁调用外部工具和服务，节点之间的东西向流量迅速增长，网络的重要性开始上升。英特尔技术专家Kevin Cai告诉雷峰网："AI的发展正在对网络带宽、时延以及能效提出全新要求，网络已经成为现代AI基础设施中的关键组成部分。

"E835支持最高200GbE吞吐量，覆盖2×25GbE、4×25GbE、2×100GbE、1×200GbE等多种端口配置，可通过英特尔以太网端口配置工具（EPCT）灵活定制。完成首次验证后，仅需两步即可重新配置端口数量和速率。 RDMA（RoCEv2/iWARP）支持可绕过CPU直接在服务器之间传输数据，动态设备个性化（DDP）技术则进一步降低了数据包处理开销。 E835真正的差异化在功耗上。英特尔给出的数据是，在满载200G线速运行时，E835的功耗比同类主要竞争对手低28%至47%，最终实现1. 4至1. 9倍的每瓦性能优势。对于正在把越来越多算力集中进机架的数据中心来说，同样的散热和供电预算意味着可以部署更高密度的网络。在电信场景中，E835还有一个容易被忽略的细节，配合至强6+的高精度时钟提取功能，可以在5G专网中以约10纳秒的精度实现时钟同步，这个能力过去需要专门的昂贵设备才能实现。爱立信在实际运营商部署中测试至强6+的数据也已印证，在相同核心数下，性能提升30%，每瓦性能提升60%以上，机架功耗下降38%。

E835还提供超过10年的产品生命周期，这对需要长期稳定运营的电信和企业客户来说，是降低长期TCO的重要保障。为Agent而生的480GB显存GPU如果说至强6+解决的是Agent的调度问题，那么英特尔下一代数据中心GPU——代号Crescent Island，则瞄准了另一个瓶颈：内存。在Agent时代，内存正在变成核心竞争力。因为Agent不仅需要推理，还需要长期记忆、上下文保存、多模型协同以及频繁切换不同任务。越来越长的上下文窗口以及不断增长的KV Cache需求，使得显存容量的重要性迅速提升。 Crescent Island基于Xe 3P架构，最大的差异化不是算力，而是高达480GB的超大内存容量。英特尔选择了LPDDR5x显存方案，相比HBM功耗更低，成本更具竞争力，同时将整卡功耗控制在350W，可直接部署在现有风冷数据中心中，无需液冷改造。 Crescent Island是为Agentic AI而生。 480GB意味着什么？杨锦文解释，以DeepSeek-V4模型的参数量为例，在FP8量化精度下，仅需4张Crescent Island就可以支持这个模型的完整部署。

更大的内存容量还意味着可以同时在显存中保留多个模型，Agent在不同任务之间切换时无需频繁加载，响应速度会快得多。但如果想获得更理想的运行效果，确实还需要更多的显存容量来支撑。此外，Crescent Island支持从原生FP4/MXFP4到FP64的广泛数据类型，PCIe兼容的外形规格进一步降低了扩展门槛。目前已有超过20家OEM和ODM厂商正针对该产品进行开发，更多细节将在未来几个月陆续披露。英特尔技术专家指出，Crescent Island GPU走是一条极高性价比的路线，非常适合端侧或者是企业的典型场景，比如说一机8卡或者是一机16卡的部署。在软件支持方面，Crescent Island GPU将提供开箱即用的广泛模型软件支持，围绕四个原则构建统一的 Xe 软件栈，即开放、规模化性能、优秀的用户体验以及支持异构基础设施。从CPU公司，到AI系统公司从一个整体的视角看英特尔至强6+的发布，会发现一个有趣的现象，英特尔发布的并不是一款产品，而是一套体系——CPU、GPU、网络、软件生态同时出现，全部围绕同一个主题展开。这背后反映出英特尔数据中心战略的一次深层转变。过去的数据中心竞争，本质上是单芯片竞争。

而Agent时代正在让这种边界消失，因为Agent运行需要的是完整系统，CPU负责控制平面，GPU负责推理平面，网络负责数据流动，软件负责资源编排，任何单一环节都无法独立完成任务。软件生态是英特尔在这场竞争中的另一张牌。其统一Xe软件栈已支持PyTorch、vLLM、SGLang等主流框架，坚持上游优先策略，不构建封闭生态，而是把对英特尔硬件的支持直接贡献到开源框架的上游代码里，每款新硬件发布都提供Day 0的即刻支持。未来开发者可以在锐炫Pro平台上完成开发，再无缝部署到Crescent Island上，前向和后向兼容性都有保障。有些技术积累，只有到了Agent时代才被重新发现价值。曾义提到了一个例子，英特尔多年前推出的IAA（Intel In-Memory Analytics Accelerator），可以在内存层做压缩和解压缩加速。当时客户兴趣有限，但Agent需要频繁快速地换入换出上下文状态，IAA的价值突然变得清晰。国内几家大的头部客户在与我们进行讨论和演进的时候，这个项目的进展速度也非常快。

CXL内存扩展同样如此，通过CXL在多个CPU之间共享大容量内存池，正在成为Agent大规模部署时的重要基础设施选项。在英特尔面向生成式AI的产品组合，CPU依旧是值得关注的重点。雷峰网了解到，英特尔下一代至强CPU代号Diamond Rapids，将基于Intel 18A P工艺，采用16通道内存配置，提供更多PCIe通道，预计2027年发布。至强6+和Diamond Rapids之间保持完整的Socket兼容性，客户不需要为了升级重构整套基础设施。过去几年，AI行业最大的叙事是GPU统治世界。但Agent的出现，正在让产业重新审视CPU的价值。对于英特尔而言，至强6+最重要的意义或许并不只是288个核心，也不只是Intel 18A首次进入数据中心市场。更重要的是，它正在证明一件事，当AI从生成答案走向执行任务，CPU依然是整个AI基础设施不可替代的控制平面。而随着Agent规模持续扩大，CPU、GPU、网络与软件共同构成的系统能力，或许才是下一阶段AI竞争真正的核心。

Read on leiphone.com

Want this in your inbox every morning?

Daily brief at your local 8am — bilingual EN/中文, free.

Subscribe — it's free

More from 雷峰网芯片

See more →

雷峰网芯片

1w ago

FeaturedOriginal

Token账单迷雾：当每百万Token多少钱变成「比价陷阱」

AI Summary

The rise of Token billing in AI has transformed costs into operational expenses, with prices varying significantly due to factors like model efficiency, energy costs, and contract terms. As companies shift from GPU hours to Token-based billing, understanding the hidden complexities behind Token pricing becomes crucial for effective budgeting.

#LLM #AI Coding #GPU #Policy

一颗288核的至强6+，为什么能同时运行500个Agent？

Quick Answer

Quick Take

Key Points

Article Content

Want this in your inbox every morning?

More from 雷峰网芯片

Token账单迷雾：当每百万Token多少钱变成「比价陷阱」

把35B模型塞进32GB内存，智能体PC如何挑战端侧部署的「物理极限」？

给 AI 建「流水线」，九章云极看清了什么？

Related in this space

Synthetic Data Generation for Financial AI Research with NVIDIA NeMo

Deploy a Production-Ready NVIDIA AI-Q Blueprint on Oracle Cloud Infrastructure

Deploy Long-Context Reasoning and Agentic Workflows with MiniMax M3 on NVIDIA Accelerated Infrastructure