[{"data":1,"prerenderedAt":473},["ShallowReactive",2],{"content-/ai-semiconductor-endgame-2026-part-1":3,"all-pages-for-dir":471,"og-image-/ai-semiconductor-endgame-2026-part-1":472},{"id":4,"title":5,"body":6,"category":454,"description":455,"extension":456,"meta":457,"navigation":458,"ogImage":454,"path":459,"project_name":454,"published":460,"publishedAt":461,"seo":462,"stem":463,"tags":464,"todo":454,"unpublished":460,"updatedAt":454,"__hash__":470},"pages/2026-06/2026-06-26/ai-semiconductor-endgame-2026-part-1.md","AI半導体エンドゲーム推論2026（I）：トークン経済学の第一原理は HBM の積で決まる",{"type":7,"value":8,"toc":438},"minimark",[9,16,28,36,39,42,47,50,53,56,59,75,78,81,84,87,91,98,105,108,111,118,121,130,134,137,140,143,146,151,164,167,172,175,178,181,184,187,191,194,197,200,203,206,215,230,235,239,242,247,250,256,263,266,275,278,281,288,292,295,298,301,304,307,316,319,322,325,328,331,339,342,346,431],[10,11,12],"blockquote",{},[13,14,15],"p",{},"原文は中国語のメモを日本語に翻訳・編集したもの。主要な数字は WebSearch で 2026 年 6 月時点の公開ソース（NVIDIA 公式、TrendForce、Bernstein、SemiAnalysis 等）に照合した。原文のまま転記した部分には「概算」「執筆時点」と注記している。",[17,18,19,24],"figure",{},[20,21],"img",{"src":22,"alt":23},"/images/ai-semiconductor-endgame-2026-killer/figure-00.svg","AI メモリ・サイクルが超長期化する核心 — 第一原理から需給ギャップ・CXMT 影響まで1枚に",[25,26,27],"figcaption",{},"図0（キラーチャート）：パート I・II の結論を 1 枚に。第一原理 → 3 階層連動 → 需給ギャップ → CXMT 影響限定の順で因果が連なる",[13,29,30,31,35],{},"「HBM の需要がなぜ必ず指数で増えるのか、そしてその指数増加がなぜ止まらないのか」を、GPU アーキテクチャ進化の本筋から導く。結論を先に置くと、現代の推論 GPU の最高 KPI（トークン throughput）は ",[32,33,34],"strong",{},"HBM size × HBM 帯域"," の積で天井が決まるため、HBM の代々 2 倍が止まると GPU の代々 2 倍も止まる。",[13,37,38],{},"HBM の周期性をめぐる論争には、以前から大きな温度差がある。楽観派は「AI 需要の規模が違う」と言う。一方、市場の主流は「過去の上昇周期にも年 20% 超の需要増はあった。今回も結局は commodity 性に引き戻され、需要ピークで増産した分が需要下降と重なって地獄を見るだろう」と懐疑的だ。",[13,40,41],{},"ここでは、計算チップのアーキテクチャ視点から第一原理に降りて、「今回は本当に違う」と言える根拠を解きほぐす。",[43,44,46],"h2",{"id":45},"歴史cpu-が算力を主導していた時代","歴史：CPU が算力を主導していた時代",[13,48,49],{},"長らく我々は CPU 主導の算力時代を生きてきた。CPU の最高 KPI は performance、つまり「より速く回る」ことで、世代ごとに様々な手段で速度を上げてきた。最初は周波数、そのあとは superscaler などのアーキテクチャ進化。",[13,51,52],{},"なぜこの時代、DDR は技術進化のスピードを上げる必要がなかったのか。DDR3 から DDR5 まで実に 15 年もかかった。",[13,54,55],{},"DDR の役割が「補助」、しかも「補助としても弱い」存在だったからだ。業界経験則として、DDR の速度を 2 倍にしても CPU performance はせいぜい 20% 未満しか伸びない。",[13,57,58],{},"帯域を上げてもなぜ効かないか、理由は 2 つ。",[60,61,62,69],"ol",{},[63,64,65,68],"li",{},[32,66,67],{},"CPU は DDR レイテンシを隠す設計を積み上げてきた","。superscaler、issue width 拡大、巨大な ROB と register renaming で並列度を稼ぎレイテンシを隠す、L1/L2 cache。これらが DDR 帯域への依存を削いだ",[63,70,71,74],{},[32,72,73],{},"CPU の workload は DDR 帯域をそこまで要求しない","。Web ブラウジングのような日常負荷、さらにはクラウドの一般負荷でも、DDR 帯域は深刻に過剰",[13,76,77],{},"要するに CPU 時代、DDR の帯域速度はあまり意味がなく、DDR4 と DDR5 はゲームを除けば違いが見えにくかった。JEDEC 標準の進歩自体もゆっくりだった。",[13,79,80],{},"容量も同様で、ほとんどのアプリは常時 DDR に居座る必要がなく、必要なときにディスクから持ってくれば事足りる。アプリのサイズも急増しないため、容量需要も穏やかだった。直近 10 年で平均 PC の DDR 容量は 7〜8GB → 23GB、わずか 3 倍。",[13,82,83],{},"そして容量も速度も伸び悩んだ事実は、そのまま売上に直撃する。サイズ課金が収益の主軸で、速度向上は「容量の単価を上げる技術アップグレード」程度の意味しかない。両方とも伸びないので、需要は PC／スマホの出荷台数増に従う「景気変動つき commodity」になった。",[13,85,86],{},"つまり DRAM は「帯域」「容量」の両軸で半導体産業の従属品にすぎず、DDR の世代交代の限界効用は低く、CPU 時代の最高 KPI とは直接ほぼ無関係だった。",[43,88,90],{"id":89},"genai-大規模モデル時代計算範式の転換で最高-kpi-が根本から変わる","genAI 大規模モデル時代：計算範式の転換で最高 KPI が根本から変わる",[13,92,93,94,97],{},"GPU が AI 推論時代に入ると、もはや「跑分（ベンチ）」を見るのではなくなった。最高 KPI は算力 TOPS／FLOPS ではなく、",[32,95,96],{},"トークンのコスト","、特に「単位コスト・単位電力あたりの overall token throughput」になる。",[13,99,100,101,104],{},"次点に来るのが ",[32,102,103],{},"トークン throughput 速度","。agent 時代は多くのタスクが直列化され、トークン速度はユーザー体験の重大なボトルネックになる。",[13,106,107],{},"これがジェンスン・フアンが「AI Factory」概念を打ち出した理由だ。最低コストで最大のトークンを吐き、かつトークン速度を可能な限り上げる。",[13,109,110],{},"AI トレーニング時代の老黄の経済学は TCO（total cost of ownership）：GPU を買うほど節約できる。",[13,112,113,114,117],{},"推論時代の彼のトークン経済学は別物だ。AI 推論の粗利は十分大きく、論理は反転する。NVIDIA GPU は「世界でトークン単価が最も安くなる GPU」なので、",[32,115,116],{},"買うほど儲かる","。",[13,119,120],{},"最高 KPI は Pareto frontier 曲線そのものになり、トークン throughput とトークン速度の両軸で最適化する（図1）。NVIDIA の token factory の代際進歩とは、要するに Pareto frontier 全体を右上に押し上げることだ。これが推論時代の最重要 KPI。",[17,122,123,127],{},[20,124],{"src":125,"alt":126},"/images/ai-semiconductor-endgame-2026-part-1/figure-01.svg","推論時代の KPI はパレートフロンティアの右上シフト",[25,128,129],{},"図1：A100 → Rubin と世代を進めるごとに、Pareto frontier 全体が右上にシフトしていく。フロンティアを動かしている主体は HBM size と帯域",[43,131,133],{"id":132},"トークン-throughput-指数増加の本質をhbm-の天井に分解する","トークン throughput 指数増加の本質を、HBM の天井に分解する",[13,135,136],{},"ここからが本稿で最も重要なロジックチェーン。トークン throughput の指数増加という本質から、HBM size と HBM 帯域の指数増加へと天井を分解していく。",[13,138,139],{},"シングルカード GPU で batch size = 1 の時代、トークン throughput の次元は 1 つしかなかった ── HBM の帯域速度。帯域が高いほど throughput が大きくなる、それだけ。",[13,141,142],{},"しかし NVL72 の年代に入ると、推論はシングルカードの世界ではなくなる。72 個の GPU と 36 個の CPU から成るシステム全体が、HBM 帯域と算力をすべて使い切る「トークン工場」になる。",[13,144,145],{},"トークン throughput の増加は、2 つの軸に依存する。同時にバッチ処理するリクエスト数 × 各ユーザーリクエストの平均トークン速度。すなわち：",[13,147,148],{},[32,149,150],{},"batch size × per-user トークン速度",[13,152,153,154,163],{},"Rubin NVL72 を例に取ろう。per-user トークン速度を 100 token/s と仮定し、同時に 1,920 リクエストを処理した場合、throughput は 19.2 万 token/s。1 ラックの定格電力は約 ",[155,156,162],"a",{"href":157,"target":158,"rel":159},"https://www.nvidia.com/en-us/data-center/vera-rubin-nvl72/","_blank",[160,161],"noopener","noreferrer","120 kW（NVIDIA 公式値で 120.8 kW）","、つまり 1 MW あたり約 1.6M token/s が処理できる計算になる（数値は架空ユーザー想定の計算例）。",[13,165,166],{},"つまり追求すべきは、batch size と per-user 平均トークン速度の 2 パラメータ。両者の積が最高 KPI、トークン throughput になる。",[168,169,171],"h3",{"id":170},"第-1-パラメータbatch-size-の天井は-hbm-size","第 1 パラメータ：batch size の天井は HBM size",[13,173,174],{},"バッチに乗る各リクエストは、それぞれ KV cache を抱える。この KV cache は HBM 上に置く必要があり、サイズは数 GB〜数十 GB に達する。hot KV cache は常時高頻度・高速に読まれるので、HBM 以外には置けない。たとえばモデルが 80 層なら、トークン 1 個の生成ごとに 80 回 HBM 上の KV cache を読みに行く。",[13,176,177],{},"バッチサイズが増えれば、hot KV cache はそれに線形比例して増えていく。",[13,179,180],{},"そして、そのバッチに乗っている全リクエストの hot KV cache を HBM に載せきる必要がある以上、HBM size は batch size の増加に線形比例して伸びていかなければならない。",[13,182,183],{},"空港のシャトルバスで言えば、できるだけ速く搭乗口まで乗客を運びたい。HBM size が小さい＝シャトルバスが小さいということで、何往復もすることになる。",[13,185,186],{},"結論：batch size の天井は HBM size に依存する。",[168,188,190],{"id":189},"第-2-パラメータper-user-トークン速度の天井は-hbm-帯域","第 2 パラメータ：per-user トークン速度の天井は HBM 帯域",[13,192,193],{},"大規模モデルの decode 段階の速度は、HBM 帯域がボトルネック。トークン 1 個を出すたびに、活性化した重みと KV cache を何度も読みに行くからだ。",[13,195,196],{},"LPU（Language Processing Unit）の登場で、batch がそれほど大きくない場合は活性化重みを SRAM に載せ替えられるようになったが、それでも 1 トークン生成ごとに KV cache は HBM から何度も読む必要がある。HBM 帯域が高いほど、1 トークン生成速度はほぼ線形に速くなる。",[13,198,199],{},"シャトルバスのドア幅と同じだ。ドアが広いほど乗客（トークン）が一気に乗降できる。",[13,201,202],{},"GPU の他の構成（compute や interconnect）は、batch 増加への適合と、token compute 速度を HBM 増加にバランスさせるために配置されている。余った算力で帯域を稼ぐ技術（帯域圧縮系）すら使われる。",[168,204,205],{"id":205},"空港シャトルバスのアナロジーで整理",[17,207,208,212],{},[20,209],{"src":210,"alt":211},"/images/ai-semiconductor-endgame-2026-part-1/figure-02.svg","トークン throughput = HBM size × HBM 帯域 の第一原理",[25,213,214],{},"図2：車内が広いほど 1 回で運べる乗客（バッチ）が多く、ドアが広いほど乗降（per-user トークン速度）が速い。GPU の天井は HBM の 2 つの軸の積で決まる",[216,217,218,224],"ul",{},[63,219,220,223],{},[32,221,222],{},"車内サイズ＝HBM size（容量）","：1 回で乗せられる乗客（同時に格納できるリクエストの KV cache）数を決める。車内が大きいほど一度に運べる batch size が大きい。車が小さいと 100 人運ぶのに 2 往復が必要で、システム全体の throughput が上がらない",[63,225,226,229],{},[32,227,228],{},"ドア幅＝HBM 帯域","：乗客の乗降速度を決める。ドアが広ければ皆が一気に乗り込める（decode／generate 速度が極めて速い）。ドアが狭いと、たとえ車内が 200 人乗りでも、1 人ずつ並んで乗降することになり時間を全部食う",[13,231,232],{},[32,233,234],{},"乗客 throughput ＝ 車内サイズ × ドア幅",[43,236,238],{"id":237},"トークン経済学の第一原理を形式的に書く","トークン経済学の第一原理を、形式的に書く",[13,240,241],{},"ここまでのロジックから、トークン経済学のハードウェア需要の第一原理が導かれる：",[13,243,244],{},[32,245,246],{},"Token throughput = HBM size × HBM Bandwidth",[13,248,249],{},"AI 推論時代の最高 KPI は、実質的に HBM の 2 つの軸の進化に深く依存する。",[13,251,252,253,117],{},"トークン throughput を代々 2 倍にし続けたいなら、各世代の単一 GPU 上で ",[32,254,255],{},"HBM size × HBM 帯域 の積を代々 2 倍にしなければならない",[13,257,258,259,262],{},"これは歴史上初めて、",[32,260,261],{},"HBM の size が最高 KPI（トークン throughput）に直接効くようになった瞬間","でもある。",[13,264,265],{},"この理論を検証するには、NVIDIA の A100 から Rubin Ultra までの数世代のトークン throughput と HBM size × HBM 帯域を同じ図に並べればいい（図2）。",[17,267,268,272],{},[20,269],{"src":270,"alt":271},"/images/ai-semiconductor-endgame-2026-part-1/figure-03.svg","GPU 各世代の HBM size × HBM 帯域 とトークン throughput はほぼ同じ傾きで進化",[25,273,274],{},"図3：両者の傾きは対数軸上で驚くほど一致する。HBM 積が天井で、実 throughput はその下を追いかける構図",[13,276,277],{},"対数軸上で見ると、2 本のカーブの動きが驚くほど一致する。",[13,279,280],{},"実は HBM size × 帯域の方が、トークン throughput よりも少し速く伸びている。HBM は天井を決めているので、実際の利用率（utilization）は 100% には届かない。HBM size × 帯域が 1000 倍になったとしても、他の算力やアーキテクチャの適合次第で、その 1000 倍の天井をすべて使い切るのは難しい。",[13,282,283,284,287],{},"このカーブは偶然ではなく、システム最適化の必然解だ。",[32,285,286],{},"throughput = batch × bandwidth","、これがトークン factory 経済学を貫く第一原理であり、避けようがない。",[43,289,291],{"id":290},"ソフトウェア最適化で帯域hbm-の需要は減らないのか","ソフトウェア最適化で帯域・HBM の需要は減らないのか",[13,293,294],{},"これはハードウェアとは独立の次元だ。「CPU 上のソフトが最適化されて速くなれば、CPU はもう 10 年進化しなくていいのか？」と問うのと同じ。",[13,296,297],{},"ソフトが速くなって CPU 屋が儲からなくなる、それを避けるために CPU が生き残る道は 1 つしかない。標準ベンチでソフト最適化を考慮せず、代々のスコアを上げ続けること。さもなければ売れない。",[13,299,300],{},"GPU も同じ。ソフト最適化と「自分のトークン throughput KPI を毎年大きく進化させる」のは別の話。",[13,302,303],{},"トークン需要が増え続ける限り、トークン throughput の追求は止まらず、HBM size × HBM 帯域の追求も止まらない。",[13,305,306],{},"もし HBM size や HBM 帯域の進化が鈍れば、ジェンスン・フアン自身が御三家（Samsung／SK hynix／Micron）に乗り込んで技術アップグレードを督促するだろう。なぜなら、これが彼の GPU の天井だからだ。天井が止まれば、彼の GPU は売れなくなる。",[13,308,309,310,315],{},"もちろん NVIDIA は HBM の天井の外側からも throughput をひねり出すべく、異種計算アーキテクチャを総動員している。",[155,311,314],{"href":312,"target":158,"rel":313},"https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-efficiency-for-1m-token-context-workloads/",[160,161],"LPU の試み","や、Rubin CPX（GDDR7 128GB を載せた prefill 専用アクセラレータ）は、Pareto frontier の右側（高 per-user 速度域）を別アプローチで持ち上げた好例。",[43,317,318],{"id":318},"まとめ",[13,320,321],{},"HBM はもう「成り行きで動く DRAM の脇役」を卒業した。指数級需要が敷いた一方通行のレーンの上で、ほとんど運命じみた形で、この産業叙事詩の本舞台へと押し上げられた。",[13,323,324],{},"推論パラダイムの第一原理がここまで来てしまった以上、ジェンスン・フアンが GPU を売り続ける限り、HBM は代々 2 倍を続けねばならない。これは供給側の内生的な圧力で、AI 需要の波とは無関係、マクロ景気とも無関係、ハイパースケーラーの気分とも無関係。",[13,326,327],{},"残された問いは 1 つだけだ：",[13,329,330],{},"需要が物理的に指数増加に固定されているとき、供給側のプレイヤー 3 社は、過去 30 年と同じように自らの手でまた周期の泥沼に転落するのか？",[13,332,333,334,338],{},"これは ",[155,335,337],{"href":336},"/ai-semiconductor-endgame-2026-part-2","パート II：HBM／DRAM／SSD は伝統的周期性から逃れられるか"," に続く。",[340,341],"hr",{},[43,343,345],{"id":344},"ファクトチェックメモ2026-06-26-時点","ファクトチェックメモ（2026-06-26 時点）",[347,348,349,365],"table",{},[350,351,352],"thead",{},[353,354,355,359,362],"tr",{},[356,357,358],"th",{},"項目",[356,360,361],{},"原文の主張",[356,363,364],{},"公開ソースでの確認",[366,367,368,384,395,405,420],"tbody",{},[353,369,370,374,377],{},[371,372,373],"td",{},"Rubin NVL72 定格電力",[371,375,376],{},"約 120 kW",[371,378,379,383],{},[155,380,382],{"href":157,"target":158,"rel":381},[160,161],"NVIDIA 公式","：120.8 kW（一致）",[353,385,386,389,392],{},[371,387,388],{},"Rubin GPU HBM 容量",[371,390,391],{},"—",[371,393,394],{},"NVIDIA 公式：HBM4 最大 288GB/GPU、22 TB/s",[353,396,397,400,402],{},[371,398,399],{},"ラック合計 HBM4",[371,401,391],{},[371,403,404],{},"20.7TB、1.6 PB/s（72 GPU 構成）",[353,406,407,410,413],{},[371,408,409],{},"Rubin CPX 仕様",[371,411,412],{},"「GDDR7 を載せた prefill アクセラレータ」",[371,414,415,419],{},[155,416,418],{"href":312,"target":158,"rel":417},[160,161],"NVIDIA Technical Blog","：128GB GDDR7、~2 TB/s、attention アクセラレータ 3 倍 vs GB300",[353,421,422,425,428],{},[371,423,424],{},"トークン throughput 計算例",[371,426,427],{},"1920 batch × 100 token/s = 19.2 万 token/s ≒ 1.6M token/s/MW",[371,429,430],{},"NVIDIA「Rubin NVL72 は GB200 NVL72 に対して 10× token/MW」と公表（同じオーダー）",[13,432,433,434,437],{},"シャトルバスのアナロジーや「HBM size × HBM 帯域 = throughput 天井」の式は、業界で広く語られる定性的整理を著者が定式化したもの。NVIDIA／SemiAnalysis 等の公開資料と一貫した方向性で、数式そのものは公式値ではなく",[32,435,436],{},"概念モデル","として扱う。",{"title":439,"searchDepth":440,"depth":440,"links":441},"",2,[442,443,444,450,451,452,453],{"id":45,"depth":440,"text":46},{"id":89,"depth":440,"text":90},{"id":132,"depth":440,"text":133,"children":445},[446,448,449],{"id":170,"depth":447,"text":171},3,{"id":189,"depth":447,"text":190},{"id":205,"depth":447,"text":205},{"id":237,"depth":440,"text":238},{"id":290,"depth":440,"text":291},{"id":318,"depth":440,"text":318},{"id":344,"depth":440,"text":345},null,"GPU の最高 KPI が「トークン throughput」に変わったいま、HBM size × HBM 帯域 が物理的な天井になっている。なぜ HBM 需要の指数増加は止まらないのかを、空港シャトルバスのアナロジーから第一原理に分解する。","md",{},true,"/ai-semiconductor-endgame-2026-part-1",false,"2026-06-26T00:00:00.000Z",{"title":5,"description":455},"2026-06/2026-06-26/ai-semiconductor-endgame-2026-part-1",[465,466,467,468,469],"半導体","HBM","NVIDIA","AI推論","DRAM","lnQfmNlIqvg-e81ZL8xG_TbUdjlSmS_y4eqYaSI75_w",[],"https://log.eurekapu.com/og/blog/ai-semiconductor-endgame-2026-part-1.png?v=2026-06-26T00%3A00%3A00.000Z&title=AI%E5%8D%8A%E5%B0%8E%E4%BD%93%E3%82%A8%E3%83%B3%E3%83%89%E3%82%B2%E3%83%BC%E3%83%A0%E6%8E%A8%E8%AB%962026%EF%BC%88I%EF%BC%89%EF%BC%9A%E3%83%88%E3%83%BC%E3%82%AF%E3%83%B3%E7%B5%8C%E6%B8%88%E5%AD%A6%E3%81%AE%E7%AC%AC%E4%B8%80%E5%8E%9F%E7%90%86%E3%81%AF%20HBM%20%E3%81%AE%E7%A9%8D%E3%81%A7%E6%B1%BA%E3%81%BE%E3%82%8B&author=Kei%20Komatsu&sig=eb13bc48bb0f97cb",1782445066982]