动态资讯 分类
国产算力突破:scaleFabric400万卡AIRDMA集群详解 发布日期:2026-03-21 12:22:31 浏览次数:

  在聊架构之前,我想先回答一个很多非专业读者会问的问题:我们线万张GPU吗?

  大语言模型的参数规模,每年以大约10倍的速度增长。2020年的GPT-3是1,750亿参数,到2024年前沿模型已经突破万亿参数级别。驱动这一增长的底层规律来自Scaling Law——简单说就是:参数更多、数据更多、算力更多,模型就会变得更聪明,而且这个趋势目前还没有看到天花板。

国产算力突破:scaleFabric400万卡AIRDMA集群详解(图1)

  训练一个千亿参数的模型,单卡根本做不到——模型参数连显存都装不下。于是我们把模型拆开,分到几千、几万张卡上并行计算。这就引出了三种核心并行策略:

国产算力突破:scaleFabric400万卡AIRDMA集群详解(图2)

  这三种并行策略同时工作,意味着集群网络必须能同时扛住:高频率、低延迟的节点内通信,以及大带宽、稳定的跨节点集合通信。而要达到60%以上的模型算力利用率(MFU),网络是核心瓶颈,没有之一。

  3万卡,按每台服务器8张GPU计算,共需3,750台服务器。曙光此次采用算存网一体化的 scale X(S-X)架构,以浸没式相变液冷机柜为基本单元,单机柜可集成 640张高密度加速卡。按此密度,3万卡仅需约47台 scale Kaiyun官方入口X 机柜;每两台 scale X 设备组成一个拥有1,280张卡、算力640 PFlops的计算单元。每台机柜最高支持 860 kW 的功率密度,远超传统风冷机柜,整体 PUE 可低至 1.04。

  光模块规模更令人咋舌。在这个量级的集群里,网络芯片、交换链路、端口及光模块的数量已接近百万量级——曙光的智能运维系统(AI Info)正是为此设计,支持对百万量级设备端口及光模块的集中监控和自动化配置。这背后是长达 10个月的产品验证、累计 1,100万小时的端口链路测试数据积累。

国产算力突破:scaleFabric400万卡AIRDMA集群详解(图3)

  要理解 scaleFabric,必须先搞清楚 AI 训练集群为什么普遍采用 Spine-Leaf 架构(脊叶架构)。

  传统数据中心用的是三层架构:接入层→汇聚层→核心层。这种架构在南北流量(客户端→服务器)时表现很好,但 AI 训练的流量模式完全不同——它是东西流量为主,服务器之间互相通信,而且是Kaiyun官方入口所有人同时和所有人通信(AllReduce)。三层架构在这种场景下,汇聚层会成为严重瓶颈。

  Spine-Leaf 只有两层,每台 Leaf 交换机直接连到所有 Spine 交换机,任意两台服务器之间的通信路径长度相同,跳数固定为2跳。这带来了两个关键好处:低延迟(路径短)和带宽均等(无瓶颈节点)。

国产算力突破:scaleFabric400万卡AIRDMA集群详解(图4)

  曙光 scaleFabric 不是一款单一产品,而是一套专为万卡AI训练设计的网络体系方案。此次参观的集群采用最新的 scaleFabric400 交换机——有 1U 液冷和 2U 风冷两种形态,搭配自研 RDMA Fabric 协议(定位对标 InfiniBand,但完全国产自主)以及 SuperTunnel 通信优化技术。整体方案包含四层技术栈:

国产算力突破:scaleFabric400万卡AIRDMA集群详解(图5)

  在现场,让我印象最深的技术是 iLossless 智能无损网络。要理解为什么它重要,先要理解 AI 训练集群最怕什么:丢包。

  AI 训练使用 RDMA(远程直接内存访问)协议来绕开CPU、实现GPU直接通信。RDMA 极度不喜欢丢包——一旦发生,协议栈需要重传,AllReduce 的某一个环节卡住,其他数千张卡就都得等。在万卡规模下,即便是 0.01% 的丢包率,也会导致训练吞吐大幅下降。

  RoCEv2 方案中,防丢包的传统手段是 PFC(Priority Flow Control)——当下游缓冲区快满时,上游立刻暂停发送。但 PFC 有个严重问题:暂停信号可能像多米诺骨牌一样逐跳传播,最终导致PFC 风暴,整个网络段陷入拥塞瘫痪。

  参观中工程师强调,SuperTunnel 最大的工程价值在于开箱即用:传统方案的调优需要专业工程师耗费数月,而 SuperTunnel 的 AI 训练感知机制能自动适配不同模型的通信模式。实际案例印证了这一点:曙光已在国家超算互联网核心节点部署了3套万卡集群,整个服务上线小时完成。

  此外,scaleFabric400 延续了三网分离的设计理念——计算网络、存储网络、管理网络完全物理隔离,避免 Checkpoint 大文件写入影响 AllReduce 训练通信的延迟。scale X(S-X)架构通过算存网一体化进一步将这三张网在机柜级别统一管理,是曙光对传统分散部署模式的系统性升级。

国产算力突破:scaleFabric400万卡AIRDMA集群详解(图6)

  这是整篇文章里最敏感也最重要的部分。参观结束后,我和几位工程师认真讨论了这个问题,尽量客观地梳理差距与优势。有一点值得特别指出:在 QP 支持量(856K vs 128K)和最大组网规模(11万 vs 5万)上,scaleFabric400 已经实现了对 NVIDIA IB 的局部超越——这说明差距并非全面落后,而是有选择性的技术取舍。

  从表中可以清晰看出,国产 RDMA Fabric 方案与 NVIDIA InfiniBand 的差距集中在五个维度,而不是笼统地落后:

国产算力突破:scaleFabric400万卡AIRDMA集群详解(图7)

  其中①④是时间和资源问题,可以追;②是硬件创新问题,难但不是不可能;③是生态问题,最难、最慢;⑤是体系化问题,需要整体协同。

国产算力突破:scaleFabric400万卡AIRDMA集群详解(图8)

  走出机房前,我和这里的首席架构师聊了将近一个小时。他说了一句话让我印象很深:

国产算力突破:scaleFabric400万卡AIRDMA集群详解(图9)

  第一,硬件参数正在创下新高。国产 GPU 产品线持续迭代,而 scaleFabric400 网卡的 856K QP 支持量(约为 ConnectX-7 的6.7倍)已在关键指标上实现超越。这意味着在十万卡以上的超大规模集群里,国产方案的并发通信能力具备技术领先优势。GPU已完成从 Z100 到 Z100L 的跨代迭代,算力逐步提升。scaleFabric 交换芯片从100G到400G的跨越也已完成。

  第二,软件生态是真正的长期赛点。NVIDIA 最深的护城河不是 H100,而是 CUDA 生态——20年积累下来的算子库、调优工具、开发者习惯。国内的 CANN 生态正在快速补全,但这不是一两年能追平的。最现实的路径是:兼容主流框架(PyTorch/JAX)的同时,在关键场景提供同等甚至更好的性能,逐步建立用户信任。

  第三,国产化本身正在升级为自主创新。我在参观中看到的 iLossless、scaleOS 等技术,已经不是简单的替代品,而是在特定场景下有自己技术见解的原创方案。当国产方案开始在某些细分维度超越国际标杆,才是真正的质变。这一天,比很多人预期的要来得快。

  参观结束的傍晚,我站在数据中心门口,回望那栋低矮却占地辽阔的建筑。里面3万张算力卡正在嗡嗡运转,训练着某个也许明年就会改变某个行业的AI模型。