400-830-3360

取消



顶部

动态资讯分类

动态资讯

行业资讯

当前位置：首页 > 动态资讯 > 行业资讯

国产算力突破：scaleFabric400万卡AIRDMA集群详解发布日期：2026-03-21 12:22:31 浏览次数：

　　在聊架构之前，我想先回答一个很多非专业读者会问的问题：我们线万张GPU吗？

　　大语言模型的参数规模，每年以大约10倍的速度增长。2020年的GPT-3是1,750亿参数，到2024年前沿模型已经突破万亿参数级别。驱动这一增长的底层规律来自Scaling Law——简单说就是：参数更多、数据更多、算力更多，模型就会变得更聪明，而且这个趋势目前还没有看到天花板。

　　训练一个千亿参数的模型，单卡根本做不到——模型参数连显存都装不下。于是我们把模型拆开，分到几千、几万张卡上并行计算。这就引出了三种核心并行策略：

　　这三种并行策略同时工作，意味着集群网络必须能同时扛住：高频率、低延迟的节点内通信，以及大带宽、稳定的跨节点集合通信。而要达到60%以上的模型算力利用率（MFU），网络是核心瓶颈，没有之一。

　　3万卡，按每台服务器8张GPU计算，共需3,750台服务器。曙光此次采用算存网一体化的 scale X（S-X）架构，以浸没式相变液冷机柜为基本单元，单机柜可集成 640张高密度加速卡。按此密度，3万卡仅需约47台 scale Kaiyun官方入口X 机柜；每两台 scale X 设备组成一个拥有1,280张卡、算力640 PFlops的计算单元。每台机柜最高支持 860 kW 的功率密度，远超传统风冷机柜，整体 PUE 可低至 1.04。

　　光模块规模更令人咋舌。在这个量级的集群里，网络芯片、交换链路、端口及光模块的数量已接近百万量级——曙光的智能运维系统（AI Info）正是为此设计，支持对百万量级设备端口及光模块的集中监控和自动化配置。这背后是长达 10个月的产品验证、累计 1,100万小时的端口链路测试数据积累。

　　要理解 scaleFabric，必须先搞清楚 AI 训练集群为什么普遍采用 Spine-Leaf 架构（脊叶架构）。

　　传统数据中心用的是三层架构：接入层→汇聚层→核心层。这种架构在南北流量（客户端→服务器）时表现很好，但 AI 训练的流量模式完全不同——它是东西流量为主，服务器之间互相通信，而且是 Kaiyun官方入口所有人同时和所有人通信（AllReduce）。三层架构在这种场景下，汇聚层会成为严重瓶颈。

　　Spine-Leaf 只有两层，每台 Leaf 交换机直接连到所有 Spine 交换机，任意两台服务器之间的通信路径长度相同，跳数固定为2跳。这带来了两个关键好处：低延迟（路径短）和带宽均等（无瓶颈节点）。

　　曙光 scaleFabric 不是一款单一产品，而是一套专为万卡AI训练设计的网络体系方案。此次参观的集群采用最新的 scaleFabric400 交换机——有 1U 液冷和 2U 风冷两种形态，搭配自研 RDMA Fabric 协议（定位对标 InfiniBand，但完全国产自主）以及 SuperTunnel 通信优化技术。整体方案包含四层技术栈：

　　在现场，让我印象最深的技术是 iLossless 智能无损网络。要理解为什么它重要，先要理解 AI 训练集群最怕什么：丢包。

　　AI 训练使用 RDMA（远程直接内存访问）协议来绕开CPU、实现GPU直接通信。RDMA 极度不喜欢丢包——一旦发生，协议栈需要重传，AllReduce 的某一个环节卡住，其他数千张卡就都得等。在万卡规模下，即便是 0.01% 的丢包率，也会导致训练吞吐大幅下降。

　　RoCEv2 方案中，防丢包的传统手段是 PFC（Priority Flow Control）——当下游缓冲区快满时，上游立刻暂停发送。但 PFC 有个严重问题：暂停信号可能像多米诺骨牌一样逐跳传播，最终导致PFC 风暴，整个网络段陷入拥塞瘫痪。

　　参观中工程师强调，SuperTunnel 最大的工程价值在于开箱即用：传统方案的调优需要专业工程师耗费数月，而 SuperTunnel 的 AI 训练感知机制能自动适配不同模型的通信模式。实际案例印证了这一点：曙光已在国家超算互联网核心节点部署了3套万卡集群，整个服务上线小时完成。

　　此外，scaleFabric400 延续了三网分离的设计理念——计算网络、存储网络、管理网络完全物理隔离，避免 Checkpoint 大文件写入影响 AllReduce 训练通信的延迟。scale X（S-X）架构通过算存网一体化进一步将这三张网在机柜级别统一管理，是曙光对传统分散部署模式的系统性升级。

　　这是整篇文章里最敏感也最重要的部分。参观结束后，我和几位工程师认真讨论了这个问题，尽量客观地梳理差距与优势。有一点值得特别指出：在 QP 支持量（856K vs 128K）和最大组网规模（11万 vs 5万）上，scaleFabric400 已经实现了对 NVIDIA IB 的局部超越——这说明差距并非全面落后，而是有选择性的技术取舍。

　　从表中可以清晰看出，国产 RDMA Fabric 方案与 NVIDIA InfiniBand 的差距集中在五个维度，而不是笼统地落后：

　　其中①④是时间和资源问题，可以追；②是硬件创新问题，难但不是不可能；③是生态问题，最难、最慢；⑤是体系化问题，需要整体协同。

　　走出机房前，我和这里的首席架构师聊了将近一个小时。他说了一句话让我印象很深：

　　第一，硬件参数正在创下新高。国产 GPU 产品线持续迭代，而 scaleFabric400 网卡的 856K QP 支持量（约为 ConnectX-7 的6.7倍）已在关键指标上实现超越。这意味着在十万卡以上的超大规模集群里，国产方案的并发通信能力具备技术领先优势。GPU已完成从 Z100 到 Z100L 的跨代迭代，算力逐步提升。scaleFabric 交换芯片从100G到400G的跨越也已完成。

　　第二，软件生态是真正的长期赛点。NVIDIA 最深的护城河不是 H100，而是 CUDA 生态——20年积累下来的算子库、调优工具、开发者习惯。国内的 CANN 生态正在快速补全，但这不是一两年能追平的。最现实的路径是：兼容主流框架（PyTorch/JAX）的同时，在关键场景提供同等甚至更好的性能，逐步建立用户信任。

　　第三，国产化本身正在升级为自主创新。我在参观中看到的 iLossless、scaleOS 等技术，已经不是简单的替代品，而是在特定场景下有自己技术见解的原创方案。当国产方案开始在某些细分维度超越国际标杆，才是真正的质变。这一天，比很多人预期的要来得快。

　　参观结束的傍晚，我站在数据中心门口，回望那栋低矮却占地辽阔的建筑。里面3万张算力卡正在嗡嗡运转，训练着某个也许明年就会改变某个行业的AI模型。