
AMD 公司在演讲过程中,对比英伟达的 H100 加速卡,分享了 MI300X 的性能参数情况,IT之家附上数值如下:
AMD 提到,在训练性能方面,MI300X 与竞争对手(H100)不相上下,并提供具有竞争力的价格 / 性能,同时在推理工作负载方面表现更为出色。
MI300X AI 加速卡软件堆栈升至 ROCm 6.0,改善支持生成式 AI 和大型语言模型。
新的软件堆栈支持最新的计算格式,如 FP16、Bf16 和 FP8(包括 Sparsity)。
该芯片完全基于 CDNA 3 架构设计,混合使用 5nm 和 6nm IP,AMD 组合这些 IP,让其晶体管数量达到1530 亿个。
![]()
设计方面,主中介层采用无源芯片布局,该芯片使用第 4 代 Infinity Fabric 解决方案容纳互连层。中介层总共包括 28 个芯片,其中包括 8 个 HBM3 封装、16 个 HBM 封装之间的虚拟芯片和 4 个有源芯片,每个有源芯片都有 2 个计算芯片。
每个基于 CDNA 3 GPU Kaiyun科技有限公司架构的 GCD 总共有 40 个计算单元,相当于 2560 个内核。总共有八个计算芯片 (GCD),因此总共有 320 个计算和 20,480 个核心单元。在良率方面,AMD 将缩减这些内核的一小部分,我们将看到总共 304 个计算单元(每个 GPU 小芯片 38 个 CU),总共有 19,456 个流处理器。