NAND SSDがAI推論で「CMX」になる話を日本語整理した読書ノート

Vik's Newsletter の「What AI Inference Actually Demands From a NAND SSD」（2026-06）を日本語で整理した記事を、同日付の /nand-ssd-for-ai-inference-cmx に置いた。

本記事はその執筆の振り返り、つまり読書ノートである。原典本文の翻訳は貼らない。「何を学んで、自分の既存記事のどこに繋がったか」を書く。

執筆中に何度か手が止まった箇所と、訳し終えてから自分の半導体メモを見直して気づいたことをまとめる。半年後の自分が「NAND CMX をなぜ訳したんだっけ」と引き直すための索引でもある。

なぜこの記事を訳したか

Computex で投資家から「TLC/QLC は書込耐久が悪いから、結局 SLC が AI で復権するのか」と何度も聞かれた、というエピソードから始まる導入が刺さった。手元のメモリ半導体メモは HBM・DRAM 側の話に寄っていて、NAND は「ストレージとして容量単価が安い側」程度の解像度で止まっていた。原典の結論は「SLC か否か」という二択そのものが古い、NAND は セル設計でメモリ寄りからストレージ寄りまでサブティアに分岐している という地図だった。手元の半導体地図から欠けている層を埋めるピースだと判断したので、公開部分だけでも自分の言葉で並べ直しておきたかった。

もう 1 つの動機として、6 月後半は「メモリは構造的に強気だ」という話を立て続けに書いていて、その流れが HBM・DRAM 中心に偏っていた。NAND 側の構造変化を 1 本も置かないままハイパースケーラー capex 論を続けると、自分の半導体メモが片肺になる。CMX という名称が出てきた今のタイミングで、NAND ストーリーの起点記事を 1 本立てておきたかった。

原典の主張（公開部分のみ・要約）

3〜5 行に圧縮する。

エージェント型 AI が普及して、1 タスクで KV-cache が 数十TB / サーバーまで膨らむケースが出てきた
HBM・DRAM だけでは抱えきれず、Storage SSD では decode の応答に間に合わない。HBM と Storage SSD の中間に NAND ベースの新しい層が要る。NVIDIA はこれを CMX（Context Memory Storage） と呼んでいる
NAND の性格は 1セルに何ビット入れるか でほぼ決まり、状態数を増やすほど容量は伸びるが、書込速度と耐久は落ちる。CMX 向けはメモリ寄り、Storage SSD 向けはストレージ寄りに分岐していく
だから「NAND = コモディティ」モデルは古く、投資家が見るべきは「どのベンダーが各サブティアを押さえるか」

有料部分（CMX 向け SSD の I/O サイズ・FDP・ベンダー競争力）には踏み込まなかった。一次情報を歪めて要約しない、というラインを置きたかったので、公開分で打ち止めた。

自分が学んだこと

KV-cache は「履歴の保存場所」ではなく「decode 中に毎回スキャンされる作業領域」。ここを取り違えると、なぜ Storage SSD では遅すぎるのかが説明できない。 LLM 推論の prefill / decode 2 フェーズと一緒に説明することで、自分の中の図がやっと閉じた。書きながら自分の指が「履歴 = 保存しておく場所」と打ち、慌てて消したのが 2 回あった。理解しているつもりの語が、自分の手の中ではまだ古い意味で動いている合図だった
NAND のサブティア分岐という見方。手元では NAND を「サムスン・SK ハイニックス・キオクシア・マイクロン・ウェスタンデジタル」と社別に眺めるだけだったが、これからは社別の上に「どのセル設計のラインが CMX を取りに行っているか」を重ねる。社別の棒グラフだけでは見えなかった軸が 1 本生えた
CMX という名称の出所が NVIDIA だったこと。メモリ階層に名前を付ける主体がメモリベンダーではなく GPU 側、という構図がそもそもの観測だった。CPU 時代のメモリ階層 L1/L2/L3 は CPU 側から名付けられた。同じことが GPU 時代の階層下層で起きている、と読み替えるとしっくり来る
「DRAM ほど高速ではないが Storage SSD よりは速く、容量当たり単価では NAND」 という 3 つの境界条件で 1 つの層を定義する書き方そのものが勉強になった。新しい階層を主張するときに、上下のどちらに対して何が違うかを 2 方向で書く、という型として真似たい
decode のレイテンシ予算が数 ms という具体的な数字。手元のメモは「decode は遅い・prefill は速い」程度で止まっていた。数 ms という予算が決まれば、そこに収まる NAND / 収まらない NAND という分岐がそのまま投資判断の軸になる

原典の構成と自分の構成の対応

訳出するとき、原典のセクション順をそのまま日本語にしただけでは読み手の手が止まる箇所が出る。次のように対応を取り直した。

原典: 投資家からの SLC 復権質問 → NAND の歴史的整理 → KV-cache 概念 → CMX 命名 → セル設計のトレードオフ
自分の整理: 結論 3 行（CMX 命名・セル設計・投資の見方）を先頭に置き、その後で「なぜストレージではなくメモリとして要るのか」を 1 節挟み、最後にセル設計のトレードオフへ降りる

順序を入れ替えた理由は 2 つある。

日本語の半導体読者は SLC/MLC/TLC/QLC の歴史を一通り知っている前提で読み始めるので、原典の歴史導入は冗長になる
KV-cache の話を CMX 命名より前に置かないと、「なぜここに新層が要るのか」が宙に浮く

入れ替えで失われる情報がないかは Codex に並走してチェックさせた。原典のキーセンテンスを取りこぼしていないか、解釈を盛っていないかを 2 周見てもらってから公開した。

既存記事との接続

書き終わってから、自分の半導体メモのどこに刺さるかを並べた。

/why-hyperscaler-capex-wont-ease-six-pillars（2026-06-27）: 「ハイパースケーラーの capex がなぜ緩まないか」を 6 本柱で整理した記事。CMX はその 6 本柱とは別軸で メモリ階層側からの上振れ要因 になる。1 ユーザーあたり数百GB の KV-cache を抱えるなら、サーバー BOM のうち NAND の比率が一段上がる
/memory-supercycle-jevons-paradox-bull-case（2026-06-22）: メモリ需要のジェボンズ・パラドックスを書いた記事。CMX はジェボンズが NAND 側にもこぼれてくる話。容量単価が下がるほど context を長く抱える設計が増え、結果として NAND の総需要が伸びる
/micron-900-percent-ai-memory-still-upside（2026-06-27）: マイクロンの上値余地を見た記事。マイクロンは HBM 偏重で語られがちだが、CMX 視点を入れると NAND 側の付加価値が再評価される。BofA の目標株価モデルにも CMX 行は当然まだ入っていない
/memory-tax-nine-tracks-factcheck（2026-06-20）: 「メモリ税」9 トラックのファクトチェック記事。CMX はメモリ階層の話なので「メモリ税」の派生として 10 本目のトラックに化けるかもしれない

翻訳作業のメモ

形式面のメモも残しておく。次に同じ作業をするときの自分への申し送りである。

CMX = Context Memory Storage の和訳をどこまで日本語に寄せるか迷ったが、原典の固有名なので CMX のまま通した。初出時に「文脈を置く層」と意訳を添える形式に落ち着いた。日本語訳を見出しに当てると、検索したときに NVIDIA 用語と紐付かない問題があったので避けた
prefill / decode の対比は最後まで日本語化を試したが、LLM 推論の界隈ではこの英単語のままで通っているので、定義だけ添えて英語のまま残した。代わりに「計算支配」「メモリ支配」という対の和語を 1 度だけ添えて、初見の読者が両者の役割を区別できるラベルを残した
図 1（HBM / DRAM / NAND CMX / Storage SSD の 4 階層） だけは SVG を起こした。apps/web/public/images/nand-ssd-for-ai-inference-cmx/figure-01.svg に置いた。原典の図はスクリーンショット流用にならざるを得ないので、構造を取り出してこちら側で描き直した。4 層を上から下に積むとき、NAND CMX の帯だけ色を強めて「中間層が新しく割り込んでいる」が一目で見えるレイアウトに寄せた
3 行の結論先出しは読書ノート構成のテンプレ通り。Vik's Newsletter は段落が長く、結論を冒頭に立てない筆致なので、読み手の負荷を下げるために訳出時に頭出しを足した
「なぜ Storage ではなくメモリとして要るのか」 の節は原典にはない。原典は前提として読者が prefill/decode の対比を知っている書き方をしているが、日本語側ではここを噛み砕かないと CMX が「速い SSD でしょ」で終わってしまう。原典の論旨を裏切らない範囲で 1 節挿入した

公開部分で打ち止めにした判断

有料コンテンツの線をどこで引くかは毎回迷う。今回は次の基準で公開部分のみに絞った。

原典の主張の幹は公開部分で完結している: CMX という階層の存在と、セル設計でサブティアに分岐する、という 2 点で本論の骨は通っている。有料部分は実装ディテール（I/O サイズ・FDP・ベンダー競争力）の肉付けで、骨を補強するが幹を変えない
一次情報の権利を尊重したい: 有料記事の中身を日本語で完訳して並べると、Vik's Newsletter の課金モデルを掘り崩す。公開部分の整理 + リンクで誘導、というラインに収める
自分の半導体メモへの接続には公開部分で足りた: ハイパースケーラー capex 論との接続点を出すのが目的だったので、公開部分で十分その用途を満たした

逆に、もし「マイクロンの CMX 戦略はどうか」「キオクシアの NAND ライン戦略はどうか」を 1 本書きたくなったタイミングでは、有料分を読まないと骨が足りなくなる。そのときに改めて課金して読む。

なぜ「読書ノート」を別記事にしたか

原典整理の /nand-ssd-for-ai-inference-cmx 側に編集動機まで詰めると、原典の主張と自分の感想が混ざる。一次情報の整理と、自分の半導体メモへの差し込みは別レイヤーに分けておきたい。

/nand-ssd-for-ai-inference-cmx は 「原典で何が書かれているか」を引いて確認するための索引 として残し、本記事は 「自分が何を学んで、どの既存記事に繋いだか」を後から辿るためのジャーナル として置く。半年後の自分が「NAND CMX って何で訳したんだっけ」と引き直すときに、両方を併読すれば文脈が戻る。

残課題

有料部分（I/O サイズ・FDP・ベンダー競争力）を読むかどうか。公開部分の地図だけで自分の半導体メモには十分接続できたので、有料分は急がない。次に CMX 関連の決算コメントが他社から出てきたタイミングで読むかどうか判断する
図 1 以外の図解（セル設計のトレードオフ表など）を起こすかどうか。現状は本文だけで意味は通るが、トレードオフは表でしか伝わらない情報なので、後日 SVG を 1 枚足す可能性は残しておく
CXL（CPU-Attached プール DRAM）との位置関係。原典では脇に置かれていたが、自分の半導体メモにとってはむしろ CXL と CMX の住み分けの方が継続的に効いてくる気がする。別記事で 1 本立てる候補
マイクロン以外の NAND ベンダー（サムスン・SK ハイニックス・キオクシア）について、CMX 向けの設計ラインを各社の決算資料から拾い直す作業。今は社別の在庫・出荷量を見ているだけなので、サブティアの軸を追加した社別比較表を 1 枚作る
自分が NAND を「ストレージ」としか見ていなかったここ半年の記事を棚卸しして、CMX 視点で書き直すべき箇所がないかを点検する。たぶん /memory-tax-nine-tracks-factcheck の NAND 行の解釈は古くなっている