錦です。
GIGABYTEは、先日発表されたNVIDIAのAmpereアーキテクチャを採用するNVIDIA A100(Tesla A100)を搭載するHPCのシステム「HGX A100」を発表しました。
HGX A100
発表されたHPCシステムは、G462-ZD0、G492-ID0、G262-ZR0、G262-IR0の4モデルです。
GPU4基 | GPU8基 | |
---|---|---|
第2世代 AMD EPYC | G492-ZD0 | G262-ZR0 |
第3世代 Intel Xeon SP | G492-ID0 | G262-IR0 |
第2世代AMD EPYC(Rome)または、第3世代Intel スケーラブルプロセッサ(Cooper Lake-SP)を搭載します。
GPUは、G492はA100を4基、G262は8基それぞれ搭載していて、それらはすべて第3世代NVLinkで接続されています。NVIDIA NVSwitchも搭載されています。
これらのシステムは、HPCに向けた推論やトレーニングに向けられたシステムで、Tensorコアを利用することを前提としています。
HGX A100を含むNVIDIAアクセラレートデータセンターのコンセプトは、様々なコンピューティングスケールに必要なGPUコンピューティングパワーを提供します。NVIDIAアクセラレートデータセンターは、NVIDIA Mellanox HDR InfiniBand高速ネットワーキングと、GPUDirect RDMAおよびGPUDirectストレージをサポートするNVIDIA Magnum IOソフトウェアも備えられています。これらの組み合わせて、世界規模の数万という規模のGPUに素早く拡張でき、複雑なAIネットワークを最速でトレーニングすることができます。
これらの製品には、コンテナソフトウェアのNGCカタログも備えているため、開発者はプログラムを簡単に起動して実行する事ができます。
GIGABYTEの経験と開発により、2U・4Uスペースで最大数のGPUをサポートできるとのこと。また、GPUとCPUのコンポーネントは分離されまものになっており、互いの熱伝導を防止しています。