NVIDIA与全球合作伙伴联合发布全新HGXA100系统。

 行业动态     |      2022-05-30 14:41:31    |      沥拓

ISC-NVIDIA今天宣布,将人工智能与高性能计算相结合的新技术应用于NVIDIAHGXAI超级计算平台,使越来越多的行业能够更充分地利用超级计算的力量。

为了加快工业人工智能和HPC新时代的到来,NVIDIA在HGX平台上增加了三项关键技术:NVIDIA10080GBPCIEGPU、NVIDIANDR400GInfininiband网络和NVIDIAMagnumiOGPUDirectStorage软件。为实现工业HPC的创新,三者结合提供了卓越的性能。

目前,数十家合作伙伴已将NVIDIAHGX平台应用于新一代系统和解决方案,包括源讯(Atos)、戴尔科技(Deltechnologies)、汇和(Hewletpackardenterprise)、联想(Lenovo)、Microsoftazure、Netapp等。

NVIDIA创始人兼首席执行官黄仁勋先生说:HPC革命始于学术界,并迅速扩展到各行各业。行业的关键趋势正在促进超级指数和超摩尔定律的发展,使HPC成为各行业的工具。NVIDIA的HGX平台为研究人员提供了优秀的高性能计算加速能力,以解决行业面临的最困难的问题。

行业领导者利用HGX平台推动创新突破。

HGX平台是高科技产业的先驱,将HPC创新应用于计算流体动力学模拟,以指导大型燃气轮机和喷气发动机的设计和创新。HGX平台在通用电气的GENESIS代码中实现了突破性CFD方法的数量级加速。该代码采用大涡模拟来研究涡轮机内部湍流的影响。涡轮机由数百个单独的叶片组成,需要独特而复杂的几何形状。

HGX平台除了促进工业HPC转型外,还在加快世界各地的科学HPC系统,包括爱丁堡大学的新一代超级计算机。

NVIDIA10080GBPCIEGPU提升AI和HPC性能。

NVIDIAA100TensorcoreGPU提供了前所未有的HPC加速能力,解决了与工业HPC相关的复杂人工智能、数据分析、模型培训和计算模拟等挑战。A10080GBPCIEGPU的内存带宽比A10040GB增加25%,达到2TB/s,并提供80GBHBM2e高带宽内存。

A10080GBPCIE的巨大内存容量和高内存带宽可以保存更多的数据和更大的神经网络,从而最大限度地减少节点间的通信和能耗。随着内存带宽的加快,研究人员可以获得更高的吞吐量和更快的结果,最大化IT投资价值。

A10080GBPCIEGPU基于NVIDIAMPere架构。该架构内置Multi-InstanceGPU(MIG)功能,可加速AI推理等小工作负载。MIG允许HPC系统缩小计算和内存规模,同时保证服务质量。除PCIE外,还有NVIDIAHGXA100配置4卡和8卡。

NVIDIA合作伙伴为A10080GBPCIEGPU提供了广泛的支持,包括源讯(Atos)、思科(Cisco)、戴尔科技(Delltechnologies)、富士通(Fujitsu)、新华三(H3C)、汇和(Hewlettpackardenterprise)、浪潮(Inspur)、联想(Lenovo)、Penguincomputing、云达科技(QCT)和超微(Supermicro)。基于A100GPU的HGX平台也可以通过AWS(AmazonWebservices)、Microsoftazure和Oracleclecloudinfrastericture云服务获得。

新一代NDR400gb/sinfininiband交换机系统。

NVIDIAInfiniband是世界上唯一一个具有完全卸载功能的网络计算互联系统,为需要超大数据通道的HPC系统提供超级支持。NDRInfiniband网络可以轻松扩展性能,应对工业HPC和科学HPC系统面临的诸多挑战。基于NVIDIAQuantum-2芯片的交换机系统可提供64个NDR400Gb/sinfininiband端口(或128个NDR200端口),其端口密度是HDRinfininiband的3倍。

NVIDIAQuantum-2模块化交换机提供可扩展的端口配置选项,最高可提供2048个NDR400gb/sinfiniband端口(或4096个NDR200端口),双向总吞吐量达到1.64Pb/s,是上一代HDRinfiniband模块化交换机系列的5倍。与上一代相比,这款2048端口交换机的扩展能力提高了6.5倍。使用Dragonfly+网络拓扑,只需三个网络Hop即可连接100多万个节点。第三代NVIDIASHARP网络计算数据归约技术比上一代AI加速能力提高了32倍,可以大大提高高性能产业和科学应用的性能。

此外,NVIDIAUFMCyber-AI平台还提供了先进的管理功能,如网络自修复功能和NVIDIA网络计算加速引擎,以进一步减少数据中心的停机时间。

基于行业标准的NVIDIAQuantum-2交换机(预计年底前向后和向前的兼容性,可以轻松迁移和扩展现有的系统和软件。

包括源讯(Atos)、DDN、戴尔科技(Delltechnologies)、Excelero、技嘉科技(GIGABYTE)、汇和(HPE)、联想(Lenovo)、Penguincomputing、云达科技(QCT)、超微(Supermicro)、VAST、Wekaio等。此外,包括Azure在内的云服务提供商也在使用Infiniband技术。

MagnumiogpudirectStorage介绍。

MagnumioGPUDirectStorage提供GPU内存和存储之间的直接内存访问,实现了优异的复杂工作负载处理性能。这种直接通道有利于应用程序从低I/O延迟中受益,充分利用网卡的所有带宽,减少CPU在通信中的负载,管理数据消耗逐渐增加的影响。