NVIDIA 推出了一款名为“DGX GH200”的超算产品,其性能达到1EFLOPS,可以加速生成AI/LLM处理

5月29日,NVIDIA CEO黄仁勋在“COMPUTEX TAIPEI 2023”发表了开幕主题演讲,在与NVIDIA AI相关产品发布的公告中,需要注意的是NVIDIA 正式发布了搭载GH200的AI超级计算机“NVIDIA DGX GH200”(以下简称DGX GH200)。该计算机可以将256台GH200作为一个GPU流进行处理,实现了144TB内存、900GB/s的GPU带宽,而关键的AI性能,则达到了1EFLOPS,具备超级强大的AI性能,谷歌、Meta、微软有望成为第一批用户。

GH200是将Grace和Hopper两个模块集成到一起的电脑

NVIDIA发布的产品是一种用于超级计算机的模块,该模块整合了该公司开发的Arm CPU(Grace)和GPU(Hopper),以开发代号“Grace Hopper”而闻名,其正式名称为“NVIDIA GH200 Grace Hopper Superchip”。

Grace是NVIDIA开发的Arm架构CPU,采用了Arm公司已经发布的称为“Neoverse V2”的CPU IP设计。Neoverse V2不仅支持Armv9-A指令集架构,还具备128位SVE2引擎,支持扩展指令集,使得AI计算可以利用Bflot16和INT8等扩展指令集进行。在Grace中,每个芯片上搭载了72个这样的Neoverse V2 CPU核心(对于只有CPU的NVIDIA Grace CPU Superchip,则每个模块包含2个芯片,共计144个核心)。

在Grace Hopper或GH200中,一个Grace芯片和一个Hopper GPU芯片被装载在一块模块上,并通过NVIDIA开发的专有互连技术“NVIDIA C2C(NVLink Chip-2-Chip)”相连接。其带宽达到了900GB/s,相比于PCI Express 5.0 x16的带宽,提高了7倍。

GH200的最大特点在于,其CPU主内存最大可达512GB(LPDDR5X),GPU内存为96GB(HBM3)。这96GB的GPU内存可以通过NVLink交换机将GH200相连接,最多可以连接256台计算机。

DGX GH200是一种由256台GH200的超级计算机,其性能达到了每秒1EFLOPS的水平

DGX GH200是一台真正的超级计算机,与以前的DGX系列产品略有不同的是,这代的DGX是以机架形式提供的。此外DGX GH200的定位也略有不同,而且DGX H100搭载了x86 CPU,这也是不同之处。

据NVIDIA称,DGX GH200搭载了256个GH200,CPU和GPU的总内存容量为144TB。对于搭载如此大容量内存的设备,NVIDIA超级计算/HPC副总裁Ian Buck表示:“使用生成AI或LLM等巨型模型进行计算的AI已经达到了内存容量成为性能瓶颈的地步。我们需要超过TB的巨型内存,通过利用CUDA的编程模型,实现一个巨大的GPU,来满足这种需求。”他强调,对于被认为是内存容量限制的瓶颈,DGX GH200将成为答案之一,特别是在使用生成AI或LLM等巨型AI模型进行计算的情况下。

据Buck介绍,DGX GH200的AI性能达到了1EFLOPS(=1,000PFLOPS),终于突破了Petascale的界限,进入了Exascale领域。计划到2023年底之前,DGX GH200将可用,首先在Google、Meta、Microsoft等云服务中可以试用。

MGX: 一种模块化存储CPU/GPU/DPU等的开放规范

NVIDIA公布了他们称之为“MGX”的模块式服务器机箱概念。目前的服务器机箱是以CPU为中心布置的,GPU和DPU(如果按照英特尔的说法,则为IPU)等则插入PCI Express扩展槽等中。虽然在重视通用服务器的CPU的情况下问题不大,但是在专注于AI处理的服务器中,存在着需要加装更多GPU等的需求,传统的以CPU为中心的服务器机箱的灵活性正在变得不足。

因此,NVIDIA提出的MGX是将CPU、GPU、DPU等模块化,更加方便地实现服务器的部署。这样一来,就可以在CPU中心的系统中加装更多的CPU,或者在使用同一机箱的情况下减少CPU并加装更多的GPU等,从而更加灵活地进行操作。

不过,目前MGX的机制尚未公开,NVIDIA解释说将在今后以白皮书等形式公布。此外,这个MGX是开放的规格,竞争对手也可以制作符合MGX规格的模块,向服务器厂商等提供。

© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享