NVLink组网超级集群 – 上海录钜科技有限公司

益企研究院狒话多(转载）

在 2023 年 5 月底召开的 COMPUTEX 上，英伟达（NVIDIA）公布了 256 个 Grace Hopper 超级芯片组成的集群，GPU 内存总量达 144TB。以 GPT 为代表的大语言模型（Large Language Model，LLM）对显存的容量需求极其迫切，巨量显存将迎合大模型的发展趋势。那么，这个前所未见的容量是如何达成的？

△ DGX A100 和 DGX H100 256 SuperPOD 架构

NVLink4 Network 是一个重大创新，让 NVLink 可以扩展到节点之外。通过 DGX A100 和 DGX H100 各自构建 256-GPU SuperPOD 的架构图，可以直观感受到 NVLink4 Networks 的特点。在 DGX A100 SuperPOD 中，每个 DGX 节点的 8-GPU 是通过 NVLink3 互联的，而 32 个节点则需要通过 HDR InfiniBand 200G 网卡和 Quantum QM8790 交换机互联。在 DGX H100 SuperPOD 中，节点内部是 NVLink4 互联 8-GPU，节点之间通过 NVLink4 Network 互联，各节点接入称为 NVLink Switch 的设备。

△ HGX H100 8-GPU 的 NVLink-Network 连接

在 NVIDIA 提供的架构信息中，NVLink Network 支持了 OSFP（Octal Small Form Factor Pluggable）光口。这也符合 NVIDIA 宣称的线缆长度从 5 米增加至 20 米的说法。DGX H100 SuperPOD 使用的 NVLink Switch 规格为：端口数量 128 个，32 个 OSFP 笼（cage），总带宽 6.4TB/s。

△ DGX H100 SuperPOD 节点内部的网络架构

每个 8-GPU 节点内部有 4 个 NVSwitch，对于 DGX H100 SuperPOD，每个 NVSwitch 都通过 4 或 5 条 NVLink 对外连接。每条 NVLink 是 50GB/s 带宽，对应一个 OSFP 则相当于 400Gb/s，是非常成熟的。每个节点总共需要连接 18 个 OSFP 接口，32 个节点共需要 576 个连接，对应 18 台 NVLink Switch。

DGX H100 也可以（仅）通过 InfiniBand 互联，参考 DGX H100 BasePOD 的配置，其中的 DGX H100 系统配置了 8 个 H100、双路 56 核第四代英特尔至强可扩展处理器、2TB DDR5 内存，搭配了 4 块 ConnectX-7 网卡——其中 3 块双端口卡为管理和存储服务，还有一块 4 OSFP 口的用于计算网络。

回到 Grace Hooper 超级芯片，NVIDIA 提供了一个简化的示意图，其中的 Hooper GPU 上的 18 条 NVLink4 与 NVLink Switch 相连。NVLink Switch 连接了“两组” Grace Hopper 超级芯片。任何 GPU 都可以通过 NVLink-C2C 和 NVLink Switch 访问网络内其他 CPU、GPU 的内存。

NVLink4 Networks 的规模是 256 个 GPU——注意，是 GPU，而不是超级芯片，因为 NVLink4 连接是通过 H100 GPU 提供的。对于 Grace Hopper 超级芯片，这个集群的内存上限就是：（480GB 内存 + 96GB 显存）× 256 节点 = 147456 GB，即 144 TB的规模。假如 NVIDIA 推出了 GTC2022 中提到的 Grace + 2 Hopper，那么，按照 NVLink Switch 的接入能力，那就是 128 个 Grace 和 256 个 Hopper，整个集群的内存容量将下降至约 80 TB 量级。

△ Grace Hooper 超级芯片之间的互联

在 COMPUTEX 2023 期间，NVIDIA 宣布 Grace Hopper 超级芯片已经量产，并发布了基于此的 DGX GH200 超级计算机。NVIDIA DGX GH200 使用了 256 组 Grace Hopper 超级芯片，以及 NVLink 互联，整个集群提供高达 144TB 的可共享的“显存”，以满足超大模型的需求。

先列几个数字来感受一下，NVIDIA 以一己之力打造的E级超算系统。

算力：1 Exa Flops (FP8)

光纤总长度：150 英里

风扇数量：2112 个 (60mm)

风量：7 万立方英尺/分钟 (CFM)

重量：4 万磅

显存：144 TB

NVLink带宽：230 TB/s

从150英里的光纤长度，我们就可以感受其网络复杂度。这个集群的整体网络资源如下：

由于 Grace Hopper 芯片上只有 CPU 和 GPU 各一，GPU 数量远少于 DGX H100，同样达到 256 个 GPU 所需的节点数大为增加，导致 NVLink Network 的架构复杂很多：

GH200 的每个节点有 3 组 NVLink 对外连接，每个 NVLink Switch 连接 8 个节点。256 个节点总共分为 32 组，每组 8 个节点搭配 3 台 L1 NVLink Switch，共需要使用 96 台交换机。这 32 组网络还要通过 36 台 L2 NVLink Switch 组织在一起。

相比 DGX H100 SuperPOD，GH200 的节点数量大幅增加，NVLink Network 的复杂度明显提高了。二者的对比如下：

2023年 10月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31