昇腾「减负」、鲲鹏「铺路」：中国计算产业生态如何填平开发者的「踩坑」时代？

1d ago

·~4 min·5/29/2026·zh·1

Quick Take

China's Kunpeng and Ascend ecosystems are evolving from merely functional to user-friendly, significantly enhancing developer efficiency. Teams like Tsinghua and AIGCode report migration times reduced from months to weeks, with performance gains of up to 200 times in specific scenarios, as they focus on algorithm innovation rather than hardware adaptation.

Key Points

Kunpeng ecosystem reduces migration time from months to weeks for developers.
AIGCode achieved performance gains of up to 200 times in specific applications.
Developers now focus on algorithm innovation rather than hardware adaptation.
Community support has matured, providing reusable solutions for common issues.
Over 415 million developers are engaged in the Kunpeng ecosystem.

Article Content

From source RSS / original summary

一个算力生态从“能用”到“好用易用”，中间隔着什么？过去几年，国产AI算力行业长期存在一种割裂：硬件参数不断刷新，但是当开发者真正落地时，大量时间却依然消耗在环境配置、异构迁移、算子适配和反复踩坑上。随着大模型训练进入千卡级协同、科学计算走向长周期稳定运行，这种割裂的代价被进一步放大了——开发效率本身，开始成为衡量算力平台竞争力的重要指标。在最近的鲲鹏昇腾开发者圆桌上，一个很有意思的现象是，无论是做高性能计算的清华团队和中科大团队，还是做大模型预训练的AIGCode，他们谈论最多的，都不是芯片参数，而是开发效率。有人提到，过去迁移异构平台往往需要几个月，现在一周就能完成；有人提到，过去大量时间被消耗在硬件适配、环境配置和反复踩坑上，现在终于能把精力重新放回算法本身；还有人提到，过去很多问题必须等待厂商排期解决，现在开发者自己就能在社区里找到方案，甚至直接参与生态共建。这些变化看似零散，但背后其实指向同一件事：鲲鹏昇腾生态，正在从“能用”进入“好用易用”的新阶段。衡量“好用易用”的标准，从来不是发布会上的参数表，而是开发者实际感知到的工程摩擦是否正在减小。

也正是在这个意义上，这些开发者的体验，成为观察国产算力生态演进的一组关键样本。当算法创新卡在工程的“坑”里过去几年，AI行业出现了一个越来越明显的变化：模型迭代越来越快，决定落地速度的关键，正从算法转向算力基础设施的工程能力。尤其在高性能计算领域，这种变化被进一步放大。清华大学地球系统模拟团队对此深有体会。他们所做的工作，是用AI替代传统大气模拟中的经验估算环节，把全球大气模拟分辨率推进至公里级，让极端天气的模拟精度真正逼近实用价值。这个方向的科学价值毋庸置疑，但问题在于：当分辨率提升一个量级之后，背后对应的计算复杂度，往往会呈指数级增长。大气模拟本质上是一个超长时间连续积分过程，一次完整计算往往持续数天甚至更久，中间任何一次软硬件异常，都可能导致整个任务重来。相比互联网业务里常见的“失败重试”，科学计算更像是在一根极长的钢丝上行走——很多任务没有“回滚重开”的余地。更复杂的问题来自精度。一个气候结果的背后，可能是数亿次浮点运算的累计结果。单次误差或许微不足道，但经过长时间迭代之后，误差会像滚雪球一样被不断放大。这也是为什么高性能计算领域始终强调混合精度、数值稳定性、通信一致性。

但相比计算本身，更隐蔽的消耗，其实来自工程生态的不成熟过去很长一段时间里，国内算力生态整体仍处于早期阶段，硬件迭代速度远快于软件生态成熟速度。很多平台虽然已经能用，但开发工具链、编译器、异构调度、通信框架以及社区经验仍不完善，科研团队很难从一开始就完成系统级优化。于是，大量团队只能先让程序“跑起来”，再进入漫长的适配和调优阶段。这意味着，科学研发与工程优化长期处于割裂状态：先解决科学问题，再回头填工程的坑。代价是巨大的：团队大量精力被消耗在底层环境适配与反复踩坑上，真正的算法创新却始终处于一种“排队等待”的状态。鲲鹏如何将开发者从“填坑”里解放出来"鲲鹏让科研者的精力回到科研本身，不用在硬件适配上反复踩坑。 "这是清华团队王一鸣对鲲鹏最直接的评价。这句话背后，其实对应着一种开发理念的转变：团队不再遵循“先解决科学问题，再做性能优化”的传统模式，而是在代码设计阶段就开始将硬件特性、并行方式一并纳入考量——科学研发与工程优化，从“前后接力”变成了“并行推进”。理念转变的前提，是平台本身能把“坑”填平。过去很长时间里，高性能计算平台最大的难点之一，就是软件生态的碎片化。

很多科研团队迁移代码时，耗时往往不在算法，而在底层依赖适配：编译链重配、通信库重装、指令集兼容、框架重写，一层套一层。而鲲鹏做了一件很关键的事情——尽可能保持开发环境的连续性。王一鸣表示，很多主流气象软件和依赖库在鲲鹏平台上的兼容度已经很高，“加载几个库基本就能跑”，大量代码不需要大规模重构，就能完成初步迁移。这种差异，在中科大团队身上体现得更加明显。研究员陈俊仕提到，过去迁移到异构平台，周期往往以月为单位，迁移完成后还要重新做性能优化，但迁移到鲲鹏平台，一周左右就能完成。迁移效率差异的背后，本质上是开发复杂度的差异。目前主流高性能计算系统采用CPU+GPU异构模式，多套指令集并存，开发者往往需要不断处理CPU与加速器之间的数据搬运与协同问题。很多时候，一个原本只占较少耗时的CPU函数，在应用迁移到GPU后，可能会迅速成为新的性能瓶颈，开发者不得不反复重构并行逻辑。而鲲鹏选择了尽可能降低这种异构复杂性，将更多性能释放建立在通用计算架构之上。对于开发者而言，变化最直接的一点是：大量原有代码无需重写就能直接运行，工作的重心开始从“搬运代码”重新回到“性能调优”。这种变化，最终转化为了更实际的性能收益。

陈俊仕提到，通过构造更大的矩阵块，并结合NUMA（非同一内存访问）感知的内存分配策略，团队的新算法相比传统方法实现平均40多倍加速，部分场景接近200倍。而对于气象科学这类高精度、长周期计算场景，这种“少踩坑”的意义更加明显。清华团队迁移到鲲鹏后，最直观的感受之一，就是大规模长周期作业的稳定性显著提升，断点续跑机制也更加成熟。此外，鲲鹏还提供了适配主流气象开发语言的编译器、数学库和性能调优工具，让团队能够在一个体系完整、反馈高效的平台上快速调试参数、验证模型。当底层计算的可靠性有了保障，研究人员就不再需要反复排查计算误差的来源，而是能够把更多精力重新放回模型本身。社区的成熟度也在同步降低这种开发的阻力。在鲲鹏生态中，大部分常见问题都能从社区资料中找到可复用的经验；更复杂的问题，社区工程师的响应速度也足够快，开发者终于不用再长期陷在底层工程细节里。当开发者不再被硬件适配消耗，性能优化的重心，也开始重新回到算法创新本身。不过，鲲鹏在做的事情，并不只是解决"当下"的问题。

当AI基础设施的战场从"模型训练"向"Agent规模化落地"迁移，Token与内存消耗、沙箱启动速度、多Agent协同时的数据安全正在成为Agent进入产业场景之前的新一道"基础设施门槛"。鲲鹏超节点架构的设计，恰好为这一趋势提供了系统级支持。基于灵衢互联，超节点通过大带宽、低时延把分散的服务器集群组织成统一协同的计算系统——Token开销可降低约50%，沙箱百毫秒级启动，基于CCA架构的机密计算则补上安全侧的短板。开发者不需要切换一套工具链，就能从大模型训练直接走到Agent部署。昇腾正在把“堆卡”变成系统工程如果说鲲鹏解决的是“让开发者少被迁移与适配消耗”，那么昇腾面对的，则是另一个更复杂的问题：当大模型训练进入千卡级协同之后，算力竞争开始从“有没有卡”，转向“能不能把卡真正跑满”。 2024年初，AIGCode团队的陈秋武在昇腾上一代产品上做大模型预训练时，整个CANN生态在他眼中还是一片“荒漠”——算子覆盖率低，自研网络结构的适配需要排期三到四个月，团队不得不投入大量精力去填补生态的空白。但这种变化的速度，比他们预想得更快。

大约8个月后，CANN生态覆盖率已经从不足三成跃升至80%到90%，“这个迭代速度让我非常惊讶”，陈秋武直言。再到现在，问题已经变成“第一可解，第二不用排期，自己技术范围内就能解决”。他给出了一个形象的比喻：“2024年初是婴儿期，现在有点像青年期。 ”如今，AIGCode团队已经在昇腾平台完成了MoE模型预训练优化，算力利用率达到65%，接近行业平均水平的两倍。用陈秋武的话说，“一张卡可以当两张卡用”。而65%这个数字，是用系统工程优化换来的，而非堆卡堆出来的。陈秋武拆解了这背后的路径：核心在于通信与计算的协同调度。依托昇腾超节点架构，团队能够将千卡级集群的通信与计算指令做到精细的并行掩盖，最大限度压缩芯片空闲窗口；同时为实现装满瓶子，先遵循“大的块MHA先装到瓶子里，再用小的块GDN填满”的方法，结合in_proj、激活函数等小算子做融合，最后QKV重组零拷贝。进一步提升计算资源利用率。

而这背后，对应的正是CANN生态工程能力的快速成熟：预置1500余个基础算子与100余个融合算子，提供Ascend C、PyPTO等多种算子编程范式，并兼容Triton、TileLang等业界主流编程框架，深度对接90余家主流开源社区，实现70余款国内外主流大模型发布即适配；同时生态加大对开发者激励的投入，设立2000万生态创新激励基金，扶持算子、加速库等领域创新探索，投放10000卡算力资源，保障开源社区开发者的算力需求，从工具、算力到资金，共同构成了一条从“可用”走向“好用易用”的演进路径。对此，圆桌主持人石侃表示："CANN并不只是一个冷冰冰的组件，而是已经成为了连接极致硬件和开发者无穷创造力的纽带和桥梁。 "向上兼容主流计算框架、向下屏蔽硬件复杂度，让开发者用自己最熟悉的方式跑出最极致的性能——这正是CANN迭代至今最核心的设计哲学。更重要的是，当这些技术能力开始转化为开发者可感知的体验时，一个更深层的变化开始出现：开发者不再只是生态的“使用者”，而是开始成为“共建者”。从“用”到“建”:国产算力走向自我驱动当开发者开始往生态里写代码，而不仅仅是跑代码时，事情就变了。

清华大学、AIGCode、中科大——这些团队不再只是跑模型、调参数，而是开始往生态里写代码、填坑、修路。清华团队将基于鲲鹏平台的项目经验沉淀为行业参考，为鲲鹏社区贡献了气象科学计算领域的最佳实践；AIGCode则持续推进国产算力与自研模型之间的深度协同，希望打通从底层算力到模型训练的完整链路。要知道，气象模拟与高性能科学计算，向来是算力平台能力的压力测试场——长周期、高精度、对稳定性几乎零容忍，在对芯片的要求上，处于金字塔最靠近塔尖的位置。这类团队的选择，历来不看发布会，只看能不能在最苛刻的场景下稳定交付。他们现在不仅"用"，还开始往生态里"建"，本身就是一种比任何评测数据都更有分量的背书。而这，也正是一个生态开始自我驱动的标志。截至目前，鲲鹏开发者已超过415万，合作伙伴超过7000家，解决方案认证超过27000个；昇腾开发者超过410万，合作伙伴超过3000家，解决方案认证超过6700个。这些数字背后，是无数个"清华团队"、"中科大团队"和"AIGCode"们每一次工程经验、优化能力与代码资产的持续沉淀。

衡量生态是否真正繁荣的标准，不只是开发者数量够不够多，更重要的是，是否有越来越多开发者愿意把自己的工程经验、优化能力与代码资产持续沉淀进生态之中。当生态的飞轮真正转动起来，开发者的每一次共建都在反哺生态，降低后来者的门槛，鲲鹏、昇腾的计算产业生态也随之繁荣起来。在圆桌接近尾声时，有人提了一个问题：如何用一句话概括你们选择国产算力平台的理由？几位开发者给出了各自不同的答案，但有一种共同的底色：不是没有选择，而是用过之后发现值得选。一个算力生态真正走向成熟，或许不会在某一次发布会上被宣告，而是悄悄发生在开发者决定下次还选它的那一刻。当越来越多的清华、中科大、AIGCode们把自己的代码、经验和判断押注在同一套生态之上，这场从"能用"到"好用易用"的转变，或许就已经越过了最难的那段坡。雷峰网雷峰网

Reader Mode unavailable (could not extract clean content).

Read on leiphone.com

Want this in your inbox every morning?

Daily brief at your local 8am — bilingual EN/中文, free.

Subscribe — it's free

More from 雷峰网芯片

See more →

雷峰网芯片

3d ago

FeaturedOriginal

亢奋与焦虑之间：新华三如何重估AI硬件的价值标尺？

AI Summary

At the NAVIGATE 2026 summit, H3C's CEO Yu Yingtao highlighted the dual emotions of excitement and anxiety in the AI hardware sector, driven by overwhelming demand from major internet companies. H3C's UniPoD S80000 aims to redefine AI infrastructure value, achieving a 70% training performance boost and a 3x increase in inference performance, while also developing solutions for SMEs to foster innovation amidst supply chain challenges.

#GPU #AI Startup #Enterprise AI