Nishiki-Hub

国内外のPC/PCパーツ/スマホ/Appleなどの最新情報を取り上げています

NVIDIA、「Ada Lovelace」アーキテクチャと「GeForce RTX 4090」「GeForce RTX 4080」を正式発表! 〜 RTX 3090 Tiより2〜4倍高速・RTX 4090が29.8万円

錦です。

NVIDIAは開催中のGTC内の基調講演「GeForce Beyond」にて「Ada Lovelace」アーキテクチャと、それを採用した新しいGPUGeForce RTX 4090」「GeForce RTX 4080」を正式発表しました。

Ada Lovelace

Ada Lovelace

Ada Lovelaceは、Ampereの後継となるGPUアーキテクチャTSMC N4プロセスで製造されるGPUとなっています。数学者 Ada Lovelace の名前に由来しています。

微細化によって、密度が向上したのもあってか、トランジスタ数が760億に達し、CUDAコアは驚異の18000以上搭載できるようになりました。また、新しいStreaming Multiprocessor(SMs)は、前世代から2倍以上の性能を発揮する90 TFLOPSになりました。ちなみに、前世代最上位である「GeForce RTX 3090 Ti」は40 TFLOPSでした。

新しいSMには瞬時に実行する順番を判断し、レイトレーシングを2~3倍高速化する「シェーダー実行リオーダリング(SER)」という技術が搭載されています。Jensen CEOはこのSERをCPUのアウト・オブ・オーダー実行(OOO)と並ぶ重要なイノベーションであるとしています。

第3世代RTコアでは、レイ・トライアングルの交差を判定するハードウェアアクセラレータを2基新設したほか、新しい「Opcity Micromap Engine」によってレイトレのスループットを向上させています。性能は200 RT-TFLOPS。この単位が毎度ほんとによくわからないんですが、前世代最上位RTX 3090 Tiが78 RT-FLOPSなので2倍超の性能向上となりますね。

アップデートされた第4世代「Tensor Core」はHPC向けのアーキテクチャ「Hopper」にも採用されている「Tranceformer Engine」を新たに採用しました。「Tranceformer Engine」では、自然言語学習に特化したエンジンです。このモデルを用いたサービスは世界にあふれており、例えばチャットボットや翻訳、自動応答装置などに用いられています。Tranceformer Engineの採用などのパワーアップによって、Ada LovelaceのTensor Coreの性能は1400 Tensor-TFLOPSになったとのこと。毎度この単位が分かりづらいので、前世代と比較すると、最上位「GeForce RTX 3090 Ti」が320 Tensor-TFLOPSですので、ざっと3倍弱程度の性能向上になります。

Ada Lovelaceの導入によって、NVIDIA機械学習を利用した超解像度技術「Deep Learning Super Resolution(DLSS)」がDLSS 3となり、大幅にゲーム性能が向上しました。なお、今世代でもレイトレーシングをDLSSが補助するというのは変わっていません(おそらく当面変わることはないでしょう)。

DLSS 3はAda Lovelaceのハードウェアに依存する機能がるようなので、AmpereやTuringで利用できるかどうかについては現時点で追求されていません。DLSS3では、新フレームと前フレームを使用してどのようにシーンが変化したかを判断してその中間となるシーンを生成します。具体的にはオプティカルフローアクセラレータでは、フレーム間のピクセルの方向と速度、そしてゲームから得たフレームのペアやジオメトリとピクセルのモーションベクターニューラルネットワークに送り、これを基に中間フレームを生成します。

DLSS 3はグラフィックスのパイプライン処理を介さずに新しいフレームを生成するため、力ずくのレンダリングに比べて、ゲーム性能を最大4倍に向上するとのことです。

NVIDIAは「SM」「RT Core」「Tensor Core」を3つのレイトレプロセッサとしており、ここ数世代同様レイトレーシングに力を入れていることが伺えます。

また、これに合わせて人気ゲーム「Portal」をレイトレに対応させるMOD「Portal RTX」を発表しました。そして、このPortal RTXの作成にも利用したレイトレ対応MODの開発を簡単にする事ができるツール「RTX Remix」も発表しました。RTX RemixもNVIDIA Omniverseに対応したツールとなっています。

「Turing(RTX 20)」「Ampere(RTX 30)」「Ada Lovelace(RTX 40)」の総スループットの比較(左)と効率・性能の比較(右)

Ada Lovelaceでは、各プロセッサの性能向上によって、総スループットがAmpereから大きく飛躍し、ラスタライズゲームでは最大2倍、レイトレゲームでは最大4倍高速になるとしています。

効率性では、同じ電力でAmpereの2倍の性能を発揮するとしています。このグラフ、縦に高くなるのはいいんですが、横方向の先端がさらに右に行っているということは、最大消費電力がましているということなんですね。では、その製品たちを見ていくことにしましょう。

GeForce RTX 4090

GeForce RTX 4090は、現時点でAda Lovelaceの最上位に当たる製品となるゲーミングGPUです。性能は、83 TFLOPS、1321 Tensor-FLOPS、191 RT-TFLOPSとなっています。全体的にRTX 3090 Tiの2倍〜4倍となっていて、レイトレ・シェーダー・機械学習のすべてのスループットをあわせて4倍になります。

ゲーム性能では、自他共に世界最強のGPUGeForce RTX 3090 Ti」と比較して

  • Microsoft Flight Simulator」で2倍
  • Portal RTX」で3倍
  • 「RacerX*1」で4倍
  • Warhammer 40,000 Darktide」で2倍
  • 「Cyberpunk 2077」で4倍以上

の性能向上を謳っています。

クリエイター向けのパフォーマンスでは、Chaos V-Rayによる3DレンダリングやDaVinci Resolveによるエンコードで、半分の時間であるとしています。

GeForce RTX 4090のFounders Editionを持つJensen CEO。ごっつい。

詳細なスペックを見てみます。

RTX 4090
コア
トランジスタ
CUDAコア数 16384
SM数
RTコア数
Tensorコア数
TMU
ROP
ベースクロック 2,230MHz
ブーストクロック 2,520MHz
メモリ 24GB
GDDR6X
メモリバス 384bit
帯域幅
メモリ速度
消費電力 450W
リリース状況 10月12日発売
価格 ¥298,000

発表直後であなぬけが多いですが、分かり次第追記していきます。やっぱ消費電力は450Wとなりました。PSUは850Wで電源にお金を書けないといけない構成になりましたね・・・。

価格は1,599ドル〜。日本では29万8,000円からの提供となり、10月12日から発売されます。

GeForce RTX 3080

そして、発表されたもう一つのGPUは「GeForce RTX 4080」です。メモリが12GBのバリアントと、16GBのバリアントがあります。性能は16GBモデルで、49 TFLOPS、780 Tensor-FLOPS、113 RT-TFLOPSとなっています。全体的にRTX 3080 Tiの2倍〜4倍となっていて、レイトレ・シェーダー・機械学習のすべてのスループットをあわせて4倍になります。RTX 3090 Tiよりも上回っていますので、Ampere全モデルよりも高い性能を持っていることになります。

ゲーム性能では、RTX 3080 Tiと比較して、

  • Microsoft Flight Simulator」で2倍
  • 「RacerX*2」で3倍
  • Warhammer 40,000 Darktide」で2倍
  • 「Cyberpunk 2077」で3倍以上

となっています。

RTX 4080
16GB
RTX 4080
12GB
コア
トランジスタ
CUDAコア数 9728 7680
SM数
RTコア数
Tensorコア数
TMU
ROP
ベースクロック 2,210MHz 1,310MHz
ブーストクロック 2,510MHz 2,610MHz
メモリ 16GB
GDDR6X
12GB
GDDR6X
メモリバス 256bit 192bit
帯域幅
メモリ速度
消費電力 320W 285W
リリース状況 11月発売 11月発売
価格 ¥219,800 ¥164,800

こちらが詳細な仕様です。消費電力は、RTX 4090が非常に高かったものの、RTX 3080の12GBでは300Wを下回るなど小さくなっています。これは電力を食ってでも性能を上げたい人はRTX 4090を、そうでなくてただハイエンドがほしい人ならRTX 3080をということでいいんでしょうか。

価格は、12GB版が164,800円〜、16GB版が219,800円〜となっています。

関連リンク

*1:NVIDIAのリアルタイムシミュレーション

*2:NVIDIAのリアルタイムシミュレーション