AMD MI355X vs NVIDIA B200

―「1百万トークンあたりコスト」で見る真の勝者はどちらか

🔍 はじめに

2025年のAIインフラ競争は、性能よりもコスト効率（TCO / Cost per Million Tokens）が主戦場になりつつあります。最近のSemiAnalysisレポートでは、AMDのMI355XがNVIDIAのB200を一部条件下で上回るという主張がありましたが、これは本当に現実的な比較なのでしょうか。

ここでは、公開データ・実測・仮定モデルをもとに、両者の実効コストを徹底比較します。

🧩 1. 基本スペック比較

項目	AMD MI355X	NVIDIA B200
アーキテクチャ	CDNA4	Blackwell
メモリ	HBM3E 288 GB / 8 TB/s	HBM3E 約192 GB / ~7.7 TB/s
TDP	約1,400 W（液冷）	約1,787 W（DGX B200換算）
FP8演算性能	約10 PFLOPS	約8 〜 10 PFLOPS（構成依存）
FP4演算性能	約20 PFLOPS	約18 〜 20 PFLOPS
システム構成	Infinity Fabric ×8 GPU	NVLink/NVSwitch ×72 GPU（NVL72）

💡ポイント： MI355Xはメモリ容量とFP4/FP6性能で優位。一方、B200はNVSwitchスケール性能・ソフトウェア最適化で優勢です。

⚙️ 2. コスト構造の前提

TCO（総所有コスト）は、以下の変数で大きく変わります。

GPU本体価格（AMDはNVIDIA比約30％安いと推定）
消費電力＋冷却インフラコスト（OPEX）
実効性能（スループット／トークン処理速度）
ソフト最適化・サポート費用
利用率・契約形態（オンデマンド／リザーブド等）

こうした複合要素のため、TCOは見かけ上AMDが安く見える構造になりがちです。

💰 3. 「1百万トークンあたりコスト」比較

3.1 TCOモデル上の比較（AMD公称）

指標	MI355X	B200	差
TCO per 1M Tokens	$1.48	$1.95	-24% (AMD有利)

📉 これは理論上のTCOモデルによるもので、 AMDは「同等性能をより低コストで実現可能」と主張しています。

しかし、多数の前提（電力単価・稼働率・サポート費用など）がこの比較には含まれており、現実的な価格差は20〜30%の範囲にとどまると考えられます。

3.2 実測ベース（SemiAnalysis / InferenceMAX v1）

条件	結果	コメント
同一ワークロード（SGLang + TRT-LLM）	B200がCost per Million Tokensで優位	実測スループットが高く、CUDA最適化が効いている
消費電力効率	MI355Xやや有利（TDP比）	ただし液冷・PUE次第で差は縮小
ソフト最適化負荷	B200が低い	ROCmは改善中だがエコシステム差が大きい

🧮 実運用条件に寄せるほど、B200優位が明確になる。 AMDが理論値で示すTCO差は、運用・最適化・スケール効率でほぼ相殺されます。

⚡ 4. 実効コストを左右する要因

コスト構成要素の比較

graph TB
    subgraph "AMD MI355X"
        A1[GPU本体価格<br/>-30% vs NVIDIA]
        A2[メモリ容量<br/>288GB 優位]
        A3[消費電力<br/>1400W]
        A4[ROCm最適化<br/>追加コスト]
        A5[8GPU構成<br/>Infinity Fabric]
    end

    subgraph "NVIDIA B200"
        B1[GPU本体価格<br/>基準価格]
        B2[メモリ容量<br/>192GB]
        B3[消費電力<br/>1787W]
        B4[CUDA最適化<br/>エコシステム成熟]
        B5[72GPU構成<br/>NVL72]
    end

    A1 -->|CAPEX| C[総所有コスト]
    A2 -->|性能| C
    A3 -->|OPEX| C
    A4 -->|OPEX| C
    A5 -->|スケール効率| C

    B1 -->|CAPEX| C
    B2 -->|性能| C
    B3 -->|OPEX| C
    B4 -->|OPEX削減| C
    B5 -->|スケール効率| C

    style A1 fill:#90EE90
    style A2 fill:#90EE90
    style B4 fill:#87CEEB
    style B5 fill:#87CEEB

(1) スケール効率

B200 NVL72構成は72 GPUを一体化可能で、推論・トレーニング両方で効率が高い。
MI355Xは8 GPU単位のInfinity Fabric構成で、通信帯域面で不利。

(2) 電力・冷却コスト

MI355Xは1400 Wと高密度だが、液冷前提。
B200はシステム全体で14.3 kW（8GPU）。 → データセンターPUE（1.1〜1.4）を考慮すると、OPEX差は年率で数％程度。

(3) ソフトウェア最適化

NVIDIAのCUDA + TensorRT-LLMが圧倒的に成熟。
AMDのROCmは対応拡大中だが、最適化工数・サポートコストが潜在的負担に。

📊 5. 総合評価

観点	優位	コメント
理論TCO	🟢 AMD	$1.48 vs$ 1.95 で24%安価（仮定ベース）
実測スループット	🟢 NVIDIA	高負荷LLMで20〜30%高性能
電力効率	⚪ AMD（僅差）	高TDPだがシステム全体では拮抗
ソフト・運用性	🟢 NVIDIA	エコシステムの安定性と人材層
スケーラビリティ	🟢 NVIDIA	NVL72構成で圧倒的スケール

🧭 6. 結論

AMD MI355Xは小〜中規模LLM推論で高い価格性能比を発揮。
しかしNVIDIA B200は大規模運用・実測性能・安定性で依然優位。
1百万トークンあたりの実効コスト差は±20〜30％の範囲に収束する見込み。

要するに、

「AMDは理論上安い、NVIDIAは実運用で強い」というのが現時点の最も現実的な評価です。

📚 参考資料

AMD公式仕様書: AMD Instinct MI355X
NVIDIA公式: DGX B200
SemiAnalysis: “InferenceMAX v1 Cost per Million Tokens Benchmark” (May 2025)
Inference & AI Infra Reports, 2025 Q2〜Q3