●GPU編 - NVIDIA GPU
新年の幕開けに、パーソナルコンピュータのハードウェア技術の動向を占う「PCテクノロジートレンド」をお届けする。本稿はGPU編として、GeForce擁するNVIDIAと、Radeon擁するAMDの動向を探るが、2020年はいまだに謎に包まれているIntelのX^e(Xe)のアンベールも期待される。まとめて紹介したい。
***
○◆NVIDIA GPU
2019年はTuringをベースとした製品をコンシューマ向けに展開した1年であったが、さて2020年は? という話。先ほどProcessの所でもちょっと触れたが、NVIDIAはAmpereというコアを開発中である。これがTuringの後継になるのか、Voltaの後継になるのかはNVIDIAは公式には明かしていないが、筆者はVoltaの後継となると判断している。理由は2つある。
一つは先にProcessやCPUの所でも触れたが、2020年内に納入されるNERSCのPerlmutterに、Volta-Nextが搭載される事だ。Voltaそのものは2017年の投入だから、さすがにそろそろ古い製品であり、微細化でシェーダの数を増やし、性能を引き上げたいところである。PerlmutterではCPU/GPU比が1:4となる形でシステムが構築され、CPU/GPUでの合計性能が現状のCoriの2~3倍(60~90PFlops)程度の性能を出す、とされている。CoriがDual Xeon E5-2698 v3×2388node+Single Knight Landing(Xeon Phi 7250)×9668nodeという構成であり、恐らくPerlmutterはSingle Millan+4×Volta-nextというnodeが2000程度で構成されるものと考えられる。Milanの性能をとりあえず無視して考えると、8000枚のVolta-nextで60~90PFlopsを実現するためには、7.5~12.5TFlopsの性能が必要となる。VoltaベースのTesla V100の場合、メザニンカードでBoost Clockだと7.45TFlopsなのでぎりぎり下限に間に合う計算だが、実際には連続使用だとここまで動作周波数が上がらないだろう。となれば、7nm世代に移行して、ダイサイズの小型化とシェーダの増量、消費電力の削減を狙うのは当然の事である。現状のGV100ダイは815平方mmという巨大なもので、これを500平方mm台に抑え込むだけでもかなりコストが下がり、Yieldの改善になるだろう(ついでに若干シェーダ数も増やせる)。
もう一つの理由はコード名のAmpereである。Volta(イタリアの物理学者のIl Conte Alessandro Giuseppe Antonio Anastasio Volta。電圧の単位のVoltは、Voltaにちなんだもの)とAmpere(フランスの物理学者のAndre-Marie Ampere。電磁気学の創始者のひとり。電流の単位のAmpere(アンペア)は、Ampereを英語読みしたもの)という、電磁気学に関係する名前がつけられている辺りに、NVIDIAの強い意図を感じる。Turingは計算機学者のAlan Turingから取られたコード名だから、ちょっと毛色が違うというか、方向性が違っているからだ。こういうコード名の付け方をする場合、AmpereはVoltaの後継と考えるのが自然で、Turingの後継とは考えにくい。
現時点でVoltaとTuringのアーキテクチャ上での最大の相違は、RTCoreを搭載するか、FP64 Unitを搭載するかである。Teslaの用途に今のところRTCoreは必要ない(勿論Ray Tracingを行うという用途はあるが、プロ向けの場合にRTCoreはPreviewには便利かもしれないが、出力生成には十分とは言えない)。逆にGeForceにFP64は必要ない。RTCoreとFP64の両対応のUnit、なんてものが効率よく実装できれば両者は一本化できるかもしれないが、今のところそういう話にはなっておらず、なのでAmpereはTeslaと、あとは超ハイエンドにあたるTitanの後継(さしずめTitan Aあたりだろうか?)に使われる程度に終わりそうだ。このAmpere、恐らくは3月にサンノゼで開催されるGTC 2020でお披露目され、今年後半から出荷開始という感じになるかと思われる。
ではTuringの後継は? というと、恐らくこちらも運が良ければ今年中に後継製品が出てくる可能性はある。先にSamsungのProcessの所で、2019年中にTape outしたのは2製品で、恐らくAmpereのほか、Xavierの後継だろうという予測を書いた。これに続く製品のTape outは2020年に予定されており、なので製品投入は2021年になると考えられる。ただ、これはSamsungの7LPPを使った製品の話である。
Tom's Hardwareの7月2日の記事では当初、The Korean Herald紙が次世代GPUの製造をTSMCからSamsungに移動したと報じたが、その後7月5日にNVIDIAのDebora Shoquist氏(VP of operations)からの「NVIDIAは次世代GPUの製造にTSMCとSamsungの両方を利用する」というメッセージを追記している。元々GeForceの製造ラインに関しては、ハイエンドはSamsungの7LPPを、メインストリーム~ローエンドにはTSMCの(恐らく)N7+を利用するという計画が伝えられており、これが間接的にではあるが追認された形だ。こちらのTape outの時期ははっきりしていないし詳細も不明ではあるが、TU106/TU116あたりの後継がTSMC製造のものになるのではないかと筆者は考えている。こちらは順調であれば、2020年第3四半期中にはリリースされるかもしれない。一方でTU102/TU104の後継に関しては、運が良ければ年内というあたりで、潤沢に出回るのは2021年に入ってからになるかもしれない。実のところAMDがまさにTU106/TU116のマーケットで競争を仕掛けている一方、TU104/TU102のマーケットは今のところ安泰であり、ここに急いで製品を投入する必要は「今のところ」無い。「今のところ」というのは、AMDの次の製品がこのマーケットに投入されないとは限らないからだ。万一、TU102/TU104と競合するような製品を投入してきた場合には、これに対抗する必要がある。ただその可能性がどこまであるか? を考えた場合、当面はTU102コアをベースにOverclockなりMemory速度変更(14Gbps→15.5Gbps)なりを掛けたバージョンで対抗させておき、2021年に後継製品で圧倒する、といったシナリオの方が現実的に思える。
●GPU編 - AMD GPU
○◆AMD GPU
Radeon RX 5700シリーズ及びRadeon RX 5500シリーズをリリースして一段落したAMD。AMDの戦略はハイエンドよりメインストリームからというものである。ただ当然ここはコストに厳しいマーケットでもある訳で、性能と価格を秤に掛けながら構成を調整してゆく事になる。なので、「数倍お買い得」みたいな話には当然ならない。筆者の記事でも述べた通り、確かにAMDの想定する競合製品と比較すればアドバンテージはあるものの、「ならもう数千円~1万円ほど足して上のモデルを狙うのもアリだな」という層までフォローしきれない部分が残るのは致し方ないところだろうか。
さてそのAMDであるが、まず新年早々にRadeon RX 5600シリーズが出るのは間違いない模様だ。こちらはNAVI 10というかRadeon RX 5700のCut Downバージョンで、性能的にはまさにRadeon RX 5500と5700の丁度中間あたり。それこそGeForce GTX 1660 Tiあたりが競合という事になる。価格も恐らくGeForce GTX 1660 Tiに寄せたものになるだろう。その一方で何かと話題になるRadeon RX 5800/5900シリーズ、つまりGeForce RTX 2080 Super~GeForce RTX 2080 Tiと同クラスの製品だが、少なくともN7世代では登場しない模様だ。このあたりは次のRDNA 2(Photo26)世代に持ち越しになりそうだ。
理由はやはりダイサイズである(Photo27)。現在のNAVI 10が40CUで251平方mm(Photo28)だが、GeForce RTX 2080 Tiに拮抗する性能というと、最低でも56CUほど欲しい所である。ところがN7でこれをやると、300平方mm近いダイサイズに膨れ上がる(計算では282平方mmほど)事になる(Photo29)。一般論であるが、ArF液浸+マルチパターニングの7nm世代の生産コストは、14nm世代の倍というのが相場で、つまりN7を利用した282平方mmのダイの原価は、14nmで560平方mmクラスのダイに等しい。つまりVega 10のダイ(486平方mm)よりも15%ほど割高になる計算である。これはおそらく現在のAMDでは選択しないだろう。
これがN7+になるとなぜ可能か? といえば、先にProcessの所で説明した様に、まずエリアサイズが18%ほど削減できる(理論上は230平方mm程度:実際は240~250平方mmあたりに収まりそうだが)上、生産コストそのものも下がる(EUVを使う事で、Critical Layerのマスク枚数が大幅に削減できる。マスクが減るという事は露光→CMPの手間そのものが大幅に減るという話で、EUVを利用することによる露光コスト上昇を加味しても、トータルコストが下がる)から、240~250mm程度のダイサイズならば、恐らく現状のNAVI 10と同等か、下手をするとむしろ安く作れるかもしれない。
RNDA 2世代では全体的にCU数が増える形で提供されることになり、ここで初めて「現状の」GeForce RTXのハイエンドと肩を並べるというあたりだろう。ただ恐らくAMDは、現状のハイエンドは2020年後半~2021年にはメインストリーム扱いになる事を理解していると思われ、その2020年後半のメインストリーム向けにRDNA 2を提供してゆくと筆者は考えている。
現状まだ詳細は不明だが、恐らくはNAVI 20とNAVI 24とかで、NAVI 20が56CU、NAVI 24が32CUとかの構成なのではないかというのが筆者の見立てである。このあたりの製品は、2020年後半に投入されると思われる。
ところでNVIDIA同様、AMDもアーキテクチャが2つに分離する。というのは、HPCマーケットで要求されるComputationにRDNAが向いていない構成のためだ。ここには引き続きGCNが必要になる。要するにRadeon Instinct向けのコアは、引き続きGCNの延長で提供されると思われる。実際、CrayとAMDは共同で1.5 ExaflopsのスーパーコンピュータであるFrontierをORNLから受注したが、こちらは2021年中旬から納入を開始、2022年末から稼働を予定している。これに間に合わせるためには、2021年上旬にあたりに新しいGCNベースのRadeon Instinctが必要になる。恐らくこれはTSMCのN5を利用して製造されるものになると考えられる。こちらがコンシューマ向けに投入される可能性は0ではない(Radeon VIIの例もある)が、まぁ投入されたとしても数はそう多くないであろう。
●GPU編 - Intel GPU
○◆Intel GPU
いまだに謎に包まれているIntelのX^e(Xe)。こちらの記事では、インテルの安生氏が「Xeグラフィックスでは、インテルがディスクリートGPUに参入するのではといわれることもあるが、その認識は少し違う。薄くて軽いノートPCに、ディスクリートGPU並の統合GPUを内蔵するというのが、我々の認識だ」と述べるという攪乱戦術(?)を取っているが、昨年10月4日に開催された2019年第3四半期のConference Callの中でBob Swan CEOが"And in 2020, we'll continue to expand our 10-nanometer portfolio with exciting new products including an AI Inference Accelerator, 5G base station SOC, Xeon CPUs for server storage, and network and a discrete GPU. This quarter, we've achieved power on exit for our first discrete GPU, DG1, an important milestone."(2020年、我々はAIアクセラレータや5G基地局向けSoC、ストレージやネットワーク向けのXeon、そしてDiscrete Graphicsを10nmプロセスで追加する。今四半期、我々は最初のDiscrete GraphicsであるDG1の開発を完了した。これは非常に大きなマイルストーンだ)と言明している訳で、まずはこれのお手並みを拝見というのが現状である。
ただこのDG1は、Consumer Graphicsに向いた構成ではなく、NVIDIAのTeslaとかAMDのRadeon Instinct同様に、限りなくHPC向けのGPGPU用途に向いた構成で登場する可能性が低くない。Intelが昨年11月17日にHPC Developer Conferenceを開催しており、この際にRaja Koduri氏(SVP&Chief Architect&GM of Architecture, Graphics and Software)が色々とプレゼンテーションを示しているのだが、主要なXeの特徴として挙げられた話をご紹介すると、演算ユニットは可変幅Vector(Photo30)で、最大数千のスケーラビリティがあり(Photo31)、AI向けにも複数のデータ型をサポートし(Photo32)、当然Double Precision(つまりFP64)もサポート(Photo33)する。
MemoryはHBM2が前提になっているが、間にXEMFと呼ばれるSwitch(というかFabric)が挟まり、このSwitchにRAMBO Cacheと呼ばれる独特なキャッシュが搭載されており(Photo34)、特に大規模な数値演算で効果を発揮するとする(Photo35)。このXEMFはCache Coherencyになっており、CPUあるいはほかのGPUと容易に接続できるとする(Photo36)
さて、DG1はどんな構成になるのかは明らかにされていないが、その先のAuroraに向けた構成の説明はあった。まず個々のGPUは、複数の演算ユニットをFoverosで接続するMCM構成であり(Photo37)、これを2つ繋げたPonte Vecchioと呼ばれるモジュールが1つのX^eデバイスとして見える形になる(Photo38)。
そしてAuroraは、Sapphire RapidsベースのXeon×2と、Ponte Vecchio×6で一つのCompute Nodeを構成することになるそうだ(Photo39)
とまぁこんな構成であるが、こうしたものから考えると、やはりDG1はPonte Vecchio向けソフトウェアの開発プラットフォーム、という位置づけにあるような気がしてならない。先の安生氏の発言も、DG1がGaming向けではないと仮定すれば納得できる発言である。このあたり、詳細がもう少し出てこないと何とも言えないが、あまり過度な期待はしない方が良さそうに思える。
2020-01-02 16:59:41