NVIDIA Veraは何が新しいのか — 自前設計のCPUコアでサーバー市場に正面から入った

NVIDIAが「Vera」というCPUを出した。ニュースの見出しは「CPU-GPUを密に組み合わせたシステム」と書くものが多いが、その組み合わせ自体は新しくない。Grace Blackwellの時点でCPUとGPUの同居はすでにやっていた。

Veraで本当に変わったのは2点だ。ひとつは、NVIDIAがCPUの心臓部にあたるコア（Olympus）を自社でゼロから設計したこと。もうひとつは、そのCPUを「GPUの相棒」ではなく単体のサーバーCPUとして売り始めたこと。これまでNVIDIAのCPUは基本的にGPUに付き従う位置づけだったのが、IntelとAMDが長年握ってきたサーバーCPU市場に正面から入ってきた。

NVIDIA Vera CPU（2つのダイを載せたボード。出典：NVIDIA Technical Blog）

まず誤解を解く：CPU-GPU同居は新しくない

NVIDIAは2023年からArmベースのデータセンターCPU「Grace」を出していて、Graceは累計250万個出荷されている（NVIDIA公表）。Grace BlackwellやGrace HopperのようにCPUとGPUを1つのモジュールに密結合する設計も、すでに製品として動いていた。

だから「CPUとGPUをくっつけた」だけならVeraは目新しくない。話の焦点はそこではなく、くっつける側のCPUの中身が変わったことにある。

Graceとの決定的な違い：既製コアから「Olympus」自社設計へ

GraceのCPUコアは、Armが設計して各社にライセンス提供している既製品「Neoverse V2」をそのまま使っていた。設計図を借りてきて積んでいた、という言い方が近い。

Veraは違う。NVIDIAはOlympusという名前のCPUコアを自分で設計した。Arm v9.2-Aの命令セット（ISA）には準拠しているので、Arm向けのコンテナ・バイナリ・ライブラリ・OSはそのまま動く。だが、命令をどう取り込んで、どう分岐を予測して、どう実行するかというマイクロアーキテクチャの中身はNVIDIAが一から作った。

ここが分かれ目だ。「Armを使っている」のは変わらないが、「Armの既製コアを借りる」から「Arm命令セットの上で自分のコアを設計する」へ移った。AppleがArm命令セットの上で独自のMシリーズコアを作ったのと同じ構図と考えると分かりやすい。

NVIDIAがOlympusを自前で作った理由は、狙う仕事が変わったからだ。従来のサーバーCPUは「コアをどれだけ詰め込めるか（コア密度）」を競ってきたが、AIエージェントの基盤では、ツール呼び出し・コード実行・サンドボックス・オーケストレーションといった制御が重く、レイテンシに敏感で、GPUだけでは捌けない仕事を同時並行で大量に処理する必要がある。その用途に合わせてコアを設計し直した、というのがNVIDIAの説明だ。

もう「GPUの相棒」ではない：単体サーバーCPUとしての販売

Veraのもうひとつの変化が販売形態だ。NVIDIAはVeraを、GPUとセットの構成だけでなくCPU単体のサーバーとしても提供する。Dell、HPE、Lenovo、Supermicroといった主要OEMが、Vera単体のサーバー構成を出す。NVIDIAはこれを「x86以外で初めての標準的なCPU選択肢」と位置づけている。

NVIDIA Vera CPUのサーバートレイ（金色のフェイスプレートが特徴。出典：NVIDIA Blog）

つまり、これまでサーバーCPUといえばIntelのXeonかAMDのEPYC（どちらもx86）の二択だったところに、ArmベースのVeraが第三の選択肢として入ってきた。NVIDIAにとっては、GPUに付随する部品としてではなく、CPUそのものを商品として売るという新しい立ち位置になる。

NVIDIAはVera単体の高密度構成として、液冷の「Vera CPU Rack」も用意している。1ラックあたり最大256個のCPUを積み、2万2500を超える同時実行環境を回せるという。デュアルソケット／シングルソケットの標準的なサーバー構成も選べる。

NVIDIA Vera CPU Rack（CPU単体の高密度・液冷ラック。出典：NVIDIA Newsroom）

Olympusコアの中身

NVIDIAの技術ブログが公開しているVera／Olympusの主な仕様を整理する。

項目	内容
コア	自社設計のOlympusコア × 88（Arm v9.2-A準拠）
スレッド	Spatial Multithreadingで1ソケット176スレッド
フロントエンド	10-wideの命令フェッチ／デコード
分岐予測	ニューラル分岐予測器（1サイクルで2つの分岐を評価）
キャッシュ	88コアで共有するL3（第2世代Scalable Coherency Fabric経由）
メモリ帯域	LPDDR5Xで最大1.2 TB/s（コアあたり約14 GB/s、一般的なDC向けCPUの約3倍）
メモリ容量	1ソケットあたり最大1.5 TB（SOCAMMモジュール、DDRの半分以下の消費電力）
二分割帯域	SCF全体で3.4 TB/s
CPU-GPU接続	NVLink-C2Cで最大1.8 TB/sのコヒーレント帯域

性能面でNVIDIAが挙げている数字は次のとおり。

x86 CPUに対して、エージェント系タスクの完了が1.8倍速い
サンドボックス環境の性能は従来のCPUインフラ比で最大80%向上
フルソケット負荷時のコアあたり性能が50%向上

Spatial Multithreadingは、スレッドあたり性能を取るか、スレッド数を取るかを実行時に選べる仕組みで、NVIDIAは「分離性が高く、テールレイテンシが読みやすい」点を強調している。

Vera Rubin：CPUとGPUをさらに密に組む全体システム

Veraを語るうえで外せないのが、次世代のGPU「Rubin」と組み合わせた「Vera Rubin」プラットフォームだ。CPUとGPUをこれまで以上に密に組み込む方向に進んだことで、システム全体の作り方も変わった。

NVIDIA Vera Rubin NVL144 ラック（液冷・金色のコンピュートトレイ。出典：NVIDIA Blog）

メモリ：HBMとLPDDR5Xの二本立て

Vera Rubinは、用途の違う2種類のメモリを併用する構成になっている。

GPU側（Rubin）にはHBM — 帯域を最優先する学習・推論の本体処理向け
CPU側（Vera）にはLPDDR5X — 大容量かつ低消費電力で、オーケストレーションやデータ処理向け

役割の違うメモリを適材適所で組み合わせることで、システム全体の帯域と電力効率の両方を取りにいく設計だ。

AIラボ：Anthropic、OpenAI、SpaceXAI
ハイパースケーラー／クラウド：ByteDance、CoreWeave、Lambda、Nebius、Nscale、Oracle Cloud Infrastructure
金融：NYSE（1日あたり1.1兆超のメッセージを処理する基盤として評価）
その他：Akamai、Cloudflare、Crusoe、Redpanda、Starburst、Together AI、Vultr

まとめ

Veraのニュースで押さえるべき点を一言でまとめると、こうなる。

CPU-GPU同居そのものは新しくない（Grace Blackwellで実績済み）
本当の新しさは、CPUコア（Olympus）をNVIDIAが自社でゼロから設計したこと — Graceが借りていたArmの既製コアから、Arm命令セット上の独自コアへ
そのCPUを単体サーバーとして売り始め、x86一強だったサーバーCPU市場に第三の選択肢として入った
Vera Rubinとして全体を組み直し、HBM＋LPDDR5Xのメモリ構成、800VDC給電、45℃温水液冷、中央PCBによる組み立ての高速化まで踏み込んだ

GPUの会社が、AIエージェント時代の「制御役」としてのCPUを自分で設計し、しかも単体で売る。NVIDIAがサーバーの心臓部そのものを取りにきた、という話だ。

出典

画像はいずれもNVIDIA公式（Newsroom／Blog／Technical Blog）が公開しているものを引用。著作権はNVIDIA Corporationに帰属する。

#NVIDIA#Vera#Olympus#CPU #Vera Rubin#Arm #データセンター #AIインフラ

NVIDIA Veraは何が新しいのか — 自前設計のCPUコアでサーバー市場に正面から入った

NVIDIA Veraは何が新しいのか — 自前設計のCPUコアでサーバー市場に正面から入った

まず誤解を解く：CPU-GPU同居は新しくない

Graceとの決定的な違い：既製コアから「Olympus」自社設計へ

もう「GPUの相棒」ではない：単体サーバーCPUとしての販売

Olympusコアの中身

Vera Rubin：CPUとGPUをさらに密に組む全体システム

メモリ：HBMとLPDDR5Xの二本立て

800VDC電源

45℃の温水で冷やす液冷

中央PCBミッドプレーンで組み立てが速くなった

採用先と出荷時期

まとめ

出典