錦です。
NVIDIAは、GeForce RTX 30シリーズの詳細な仕様を公開し始めています。
コア
GPUコアは、Ampreコア「GA100」シリーズになっています。GA100シリーズの最上位であるGA100は、GTC 2020で発表された研究・HPC向けのNVIDIA A100に採用されているコアになっており、実際にコンシューマ向けに提供されるコアはGA102以降のコアになります。今回発表された3製品でのGPUコアの振り分けられ方は、RTX 3080/RTX 3090がGA102、RTX 3070がGA104となっています。GA100とGA102/104では大きく異る部分があります。そもそもGA100は前述の通りコンシューマ向けには提供されないため、基本的にコストが高くなっています。
コア | 製造プロセス | ダイサイズ | メモリ | トランジスタ数 | 採用製品 |
---|---|---|---|---|---|
GA100 | TSMC 7nm | 826mm2 | HBM2 | 540億 | NVIDIA A100 |
GA102 | Samsung 8nm | 628mm2 | GDDR6X | 280億 | GeForce RTX 3090/3080 |
GA104 | Samsung 8nm | 392mm2 | GDDR6 | 174億 | GeForce RTX 3070 |
GA100では、製造コストが高めのTSMC 7nmを用いた製造がされており、メモリもHBM2というハイエンド仕様になっています。それに対して、コンシューマ向けコアでは、比較的コスト低めのSamsung 8nmとなっています。Samsung 8nmはNVIDIAがカスタムしたものとなっていますが、一応その中身としては10nmの派生プロセスとなっているようです。
ダイサイズは、表中の通り。GA102に比べて、GA104は2/3ほどのダイサイズ担っており、トランジスタ数もその分減少していることがわかります。
ちなみにですが、今回命名規則が変更されているのでかなりわかりにくくなっていますが、RTX 3090はRTX 2080 Tiの後継というよりかはTITAN RTXの後継となっており、RTX 3080がおおよそRTX 2080 Tiの後継になっているように見えます。RTX 2080 TiとTITAN RTXはコアがともにTU104となっており、実際に仕様として異なる点は、コア内部の数値とvRAMでした。なので実際にはRTX 2080 Tiで十分、もっとハイパワーを求める、あるいはvRAMを欲する場合にTITAN RTXを買えって話だったようですが、立ち位置的にRTX 2080 Tiが微妙だったのかもしれません。というか、この性能帯で価格が大きく離れているのもある意味問題なのでは?実際今回も3080と3090の間に倍近い価格差がありますし。
SMあたりの各コア数
Ampereアーキテクチャでの、SM(Streaming Multiprocessor)あたりの各コア数を見ていきます。
SMは、TensorコアやCUDAコアなどを内蔵したクラスタ(厳密には違う)です。SM 1コアの各コア数は以下の通りになっています。
- CUDAコア:128コア
- Tensorコア:4コア
- RTコア:1コア
GA102では、SMを82コア搭載しているため、すべてのSMが有効化されているRTX 3090では128 CUDA×82 SM=10,496 CUDAというとんでもない量のCUDAコアが搭載されているわけです。同じコアなら、同じ量のSMを搭載していますが、実際には有効化されたSMしか使えないので、誤解を防ぐために「有効SM」とさせていただきます。
RTX 3090 | RTX 3080 | RTX 3070 | |
---|---|---|---|
GPUコア | GA102 | GA102 | GA104 |
有効SM数 | 82 | 68 | 46 |
CUDAコア | 10496 | 8704 | 5888 |
RTコア | 82 | 68 | 46 |
Tensorコア | 328 | 272 | 184 |
各種コア
さて、GPUコア内部の他のアクセラレータも大きく進化しています。特筆すべきはやはり、RTコアとTensorコアなのではないでしょうか。RTコアは新たに第2世代RTコアに、Tensorコアは第3世代に、それぞれ進化しており、それぞれスループットが2倍に向上しています。ともに最も大きな変更点としては、アーキテクチャの拡張がメインになっています。
RTコア
第2世代RTコアでは、RTコアアーキテクチャへの三角形交差ユニット( Triangle Intersection Unit)と連携し、時間スケールにそって補間を行うコンポーネントが追加されています。これにより、リアルタイムレイトレーシング時のモーションブラーエフェクトの生成に効果があるとのこと。
性能では、RTX 3090で285 TFLOPS、RTX 3080で283 TFLOPSとなっており、RTX 2080 Tiの110 TFLOPSから2.5倍以上の性能の向上が見られます。
Tensorコア
そして、推論や機械学習のアクセラレータとなるTensorコアも大きく進化しています。同じ「第3世代Tensorコア」を名乗るTensorコア自体は、NVIDIA A100にも搭載されていますが、GeForceではA100のものを大幅にコピーしたものになりますが、実際には、コンシューマ向けに改良されています。
第3世代Tensorコアでは、ニューラルネットワークのスパース性を活用するようになっています。スパースは日本語で「まばらな」とかっていう意味がありますが、第3世代Tensorコアでは、重要度が低い(言ってしまえば無駄な)ものを排除して推論を行う事ができます。これは、Pruning(プルーニング)と呼ばれており、前述の無駄なパラメータを排除して推論を行い、性能と使用メモリに余裕をもたせるというものです。実際に、推論に必要なパラメータ自体は残るため、精度に影響を与えず機械学習の性能を向上させます。
また、RTX 3090における8Kのゲームプレイは、DLSS 2を利用し、人工的に解像度をスケールアップして行うものになります。つまり、8Kのゲームプレイが実現したのは、GPU性能が向上しただけでなく、DLSSの機能向上に加え、Tensorコアのアーキテクチャ拡張による恩恵です。
メモリ
そして、RTX 30シリーズの大きな変更点の一つでもあるメモリです。
RTX 3090 | RTX 3080 | RTX 3070 | |
---|---|---|---|
容量 | 24GB | 10GB | 8GB |
タイプ | GDDR6X | GDDR6X | GDDR6 |
メモリインターフェイス | 384bit | 320bit | 256bit |
構成(FE) | 24GB×12 | 1GB×10 | 1GB×8 |
メモリ速度 | 19.5Gbps | 19Gbps | 14Gbps |
帯域幅 | 936GB/s | 760GB/s | 441GB/s |
世界で初めてGDDR6Xメモリを採用するRTX 3090と3080ですが、メモリ速度・帯域がかなり大きく向上していることがわかります。旧世代と同様にGDDR6が採用されるRTX 3070では帯域が441GB/sになるのに対して、RTX 3090ではこれが936GB/sというHBM2並の帯域を持っています。これは、GDDR6でPAMが採用されており、転送レートが引き上げられたからです。メモリ速度が最大19.5Gbpsとなっており、メモリ速度の向上により帯域が大きく向上しました。
GA102では、12ユニットのメモリコントローラを搭載し、このコントローラが世界で初めてGDDR6Xをサポートしたことになります(GA100はHBM2のみのサポート)。
接続
内部接続は、PCIe 4.0に拡張されています。Zen 2 RyzenとX570/B550との組み合わせなどでその能力が発揮されます。AMD A520や、Intel Comet Lakeと組み合わせるとPCIe 3.0にスケールダウンされます。
外部接続は、Display Port 1.4aとHDMI 2.1に対応し、HDMI 2.1ではRTX 3090で8K出力に対応します。
発売など詳しくは以下の記事をご覧ください。