コア

GPUコアは、Ampreコア「GA100」シリーズになっています。GA100シリーズの最上位であるGA100は、GTC 2020で発表された研究・HPC向けのNVIDIA A100に採用されているコアになっており、実際にコンシューマ向けに提供されるコアはGA102以降のコアになります。今回発表された3製品でのGPUコアの振り分けられ方は、RTX 3080/RTX 3090がGA102、RTX 3070がGA104となっています。GA100とGA102/104では大きく異る部分があります。そもそもGA100は前述の通りコンシューマ向けには提供されないため、基本的にコストが高くなっています。

コア	製造プロセス	ダイサイズ	メモリ	トランジスタ数	採用製品
GA100	TSMC 7nm	826mm2	HBM2	540億	NVIDIA A100
GA102	Samsung 8nm	628mm2	GDDR6X	280億	GeForce RTX 3090/3080
GA104	Samsung 8nm	392mm2	GDDR6	174億	GeForce RTX 3070

GA100では、製造コストが高めのTSMC 7nmを用いた製造がされており、メモリもHBM2というハイエンド仕様になっています。それに対して、コンシューマ向けコアでは、比較的コスト低めのSamsung 8nmとなっています。Samsung 8nmはNVIDIAがカスタムしたものとなっていますが、一応その中身としては10nmの派生プロセスとなっているようです。

ダイサイズは、表中の通り。GA102に比べて、GA104は2/3ほどのダイサイズ担っており、トランジスタ数もその分減少していることがわかります。

ちなみにですが、今回命名規則が変更されているのでかなりわかりにくくなっていますが、RTX 3090はRTX 2080 Tiの後継というよりかはTITAN RTXの後継となっており、RTX 3080がおおよそRTX 2080 Tiの後継になっているように見えます。RTX 2080 TiとTITAN RTXはコアがともにTU104となっており、実際に仕様として異なる点は、コア内部の数値とvRAMでした。なので実際にはRTX 2080 Tiで十分、もっとハイパワーを求める、あるいはvRAMを欲する場合にTITAN RTXを買えって話だったようですが、立ち位置的にRTX 2080 Tiが微妙だったのかもしれません。というか、この性能帯で価格が大きく離れているのもある意味問題なのでは？実際今回も3080と3090の間に倍近い価格差がありますし。

SMあたりの各コア数

Ampereアーキテクチャでの、SM（Streaming Multiprocessor）あたりの各コア数を見ていきます。

SMは、TensorコアやCUDAコアなどを内蔵したクラスタ（厳密には違う）です。SM 1コアの各コア数は以下の通りになっています。

CUDAコア：128コア
Tensorコア：4コア
RTコア：1コア

GA102では、SMを82コア搭載しているため、すべてのSMが有効化されているRTX 3090では128 CUDA×82 SM＝10,496 CUDAというとんでもない量のCUDAコアが搭載されているわけです。同じコアなら、同じ量のSMを搭載していますが、実際には有効化されたSMしか使えないので、誤解を防ぐために「有効SM」とさせていただきます。

	RTX 3090	RTX 3080	RTX 3070
GPUコア	GA102	GA102	GA104
有効SM数	82	68	46
CUDAコア	10496	8704	5888
RTコア	82	68	46
Tensorコア	328	272	184

各種コア

さて、GPUコア内部の他のアクセラレータも大きく進化しています。特筆すべきはやはり、RTコアとTensorコアなのではないでしょうか。RTコアは新たに第2世代RTコアに、Tensorコアは第3世代に、それぞれ進化しており、それぞれスループットが2倍に向上しています。ともに最も大きな変更点としては、アーキテクチャの拡張がメインになっています。

RTコア

第2世代RTコアでは、RTコアアーキテクチャへの三角形交差ユニット（ Triangle Intersection Unit）と連携し、時間スケールにそって補間を行うコンポーネントが追加されています。これにより、リアルタイムレイトレーシング時のモーションブラーエフェクトの生成に効果があるとのこと。

性能では、RTX 3090で285 TFLOPS、RTX 3080で283 TFLOPSとなっており、RTX 2080 Tiの110 TFLOPSから2.5倍以上の性能の向上が見られます。

Tensorコア

そして、推論や機械学習のアクセラレータとなるTensorコアも大きく進化しています。同じ「第3世代Tensorコア」を名乗るTensorコア自体は、NVIDIA A100にも搭載されていますが、GeForceではA100のものを大幅にコピーしたものになりますが、実際には、コンシューマ向けに改良されています。

第3世代Tensorコアでは、ニューラルネットワークのスパース性を活用するようになっています。スパースは日本語で「まばらな」とかっていう意味がありますが、第3世代Tensorコアでは、重要度が低い（言ってしまえば無駄な）ものを排除して推論を行う事ができます。これは、Pruning（プルーニング）と呼ばれており、前述の無駄なパラメータを排除して推論を行い、性能と使用メモリに余裕をもたせるというものです。実際に、推論に必要なパラメータ自体は残るため、精度に影響を与えず機械学習の性能を向上させます。

また、RTX 3090における8Kのゲームプレイは、DLSS 2を利用し、人工的に解像度をスケールアップして行うものになります。つまり、8Kのゲームプレイが実現したのは、GPU性能が向上しただけでなく、DLSSの機能向上に加え、Tensorコアのアーキテクチャ拡張による恩恵です。

メモリ

そして、RTX 30シリーズの大きな変更点の一つでもあるメモリです。

	RTX 3090	RTX 3080	RTX 3070
容量	24GB	10GB	8GB
タイプ	GDDR6X	GDDR6X	GDDR6
メモリインターフェイス	384bit	320bit	256bit
構成（FE)	24GB×12	1GB×10	1GB×8
メモリ速度	19.5Gbps	19Gbps	14Gbps
帯域幅	936GB/s	760GB/s	441GB/s

世界で初めてGDDR6Xメモリを採用するRTX 3090と3080ですが、メモリ速度・帯域がかなり大きく向上していることがわかります。旧世代と同様にGDDR6が採用されるRTX 3070では帯域が441GB/sになるのに対して、RTX 3090ではこれが936GB/sというHBM2並の帯域を持っています。これは、GDDR6でPAMが採用されており、転送レートが引き上げられたからです。メモリ速度が最大19.5Gbpsとなっており、メモリ速度の向上により帯域が大きく向上しました。

GA102では、12ユニットのメモリコントローラを搭載し、このコントローラが世界で初めてGDDR6Xをサポートしたことになります（GA100はHBM2のみのサポート）。