NVSwitch/NVLink Interconnect

作为一个网工,每次查看Nvidia NVSwitch/NVLink的转发性能,都需要做两件事:1. NVLink和Serdes之间的映射关系;2. 把性能指标从存储的双向转发视角转换成单向转发,着实麻烦。再加上不同世代的GPU与NVLink/NVSwitch互联方案又有些不同,所以本篇就从网工的视角梳理下NVS3和NVS4以及后续NVS与不同世代GPU互联时的能力及方案,方便日后查阅。

NVS Compare

首先看下NVS不同版本间的参数对比:

NVS VerNVS3NVS4
Transistors25.1B / TSMC 4N50B / TSMC 4NP
Die Size294mm2
Pacakage50mm x 50mm (2645 balls)
NVLlink VerNVLink4NVLINK5
SerDes112Gbps/PAM4224Gbps/PAM4
Per NVLink200Gbps(2 x 112Gbps)400Gbps(2 x 224Gbps)
Total NVLinks6472
Throughput12.8Tbps28.8Tbps
NVLinks/GPU18 x 200 = 3.6Tbps
(3.6 x 2) / 8 = 900GB
18 x 400 = 7.2Tbps
(7.2 x 2) / 8 = 1.8TB

DGX H100 with NVS3 / NVL4

NVS3/NVL4 一般用于H100和H200系列的GPU,我们只拿DGX H100举例,从下图可以看到,每个 H100包含4颗NVS3,但事实上3颗NVS3就够8张H100互联了(64 x 3 = 192 > 18 x 8 = 144 ),至于为什么放4块,也许是Nvidia的某种情怀,或者某种预埋(虽然根据NVSwitch HotChips 2022的文档,DGX H100可以通过NVS3 Sacale UP到256卡,但机内互联本身需要 18NVLinks x 8卡 = 144,要满足1:1收敛比,up/down 都需要144,总共288,但4颗NVS3 64 x 4 = 256,对于AI网络,目前仍然需要1:1收敛比):

DGX GH200 with NVS3 / NVL4

在DGX GH200中,8颗GH200需要144 NVLinks,共需28.8Tbps,南向Scales UP采用了2级架构,并通过划分平面的互联方式提供线速转发(在数据中心fat-tree架构中,1 x 25.6t = 6 x 12.8t,为了承载25.6t业务,12.8t芯片间互联消耗了大部分承载能力)。如上一节说的,GH200算是真正通过NVS3完成了南向扩展并到256卡。只是对于客户真实部署,由于成本问题,主要集中在16/32/72卡。下面是1台DGX GH200的架构,可以看到采用了6颗NVS3:

那第二层是怎么互联的呢?如下,通过6个平面把256个DGX GH200互联起来:

GH200 NVL32 with NVS3 / NVL4

2023.11月底,ASW与Nvidia利用GH200联合推出一款超级计算机(Ceiba):GH200 NVL32,一个Rack包含16张Compute Tray(2颗GH200/Compute Tray),共32颗。通过9个Switch Tray(2 NVS3/Switch Tray),共18颗。外观与老Chassis路由器类似(矩阵+LC)。详细可以参考Nvidia 技术博客:GH200 NVL32 Rack-level System,相关文章也介绍了可以通过IB或以太进行扩展,但512个GH200 NVL32如何互联没有明确说明,但根据架构,大概率是通过NVSwitch进行的互联(但根据Nvidia的文档,两层NVSwitch架构只到256个GPU)。2024.3月底,Nvidia 发布了GB200,也有传言Ceiba将会升级使用GB200来进行部署,所以更细节的内容还是拭目以待吧,下面是GH200 NVL32的结构图:

DGX B200 with NVS4 / NVL5

在DGX B200中,可以看到只用到了2颗NVS4,正好满足8颗芯片的需求:72 x 2 = 144,这个逻辑跟DGX H100已经不同了,没有在NVS4上额外预留NVLinks port:

GB200 NVL72 with NVS4 / NVL5

根据Nvidia 2024年的GTC,以及目前公开的文档,NVL72已经把NVS4的端口都用完了,所谓的8 x NVL72 576卡,是如何互联起来的,众说纷纭:1. 通过NVSwitch互联,但NVL72内的NVS4数量和互联方式会有所变化;2. 通过IB/以太 互联;这部分后面有详细信息,再做更新吧。

下图是单独的GB200 NVL72:

本文出自 Frank's Blog

版权声明:


本文链接:NVSwitch/NVLink Interconnect
版权声明:本文为原创文章,仅代表个人观点,版权归 Frank Zhao 所有,转载时请注明本文出处及文章链接
你可以留言,或者trackback 从你的网站

留言哦

blonde teen swallows load.xxx videos