[{"data":1,"prerenderedAt":443},["ShallowReactive",2],{"content-/nand-ssd-for-ai-inference-cmx":3,"all-pages-for-dir":441,"og-image-/nand-ssd-for-ai-inference-cmx":442},{"id":4,"title":5,"body":6,"category":423,"description":424,"extension":425,"meta":426,"navigation":427,"ogImage":423,"path":428,"project_name":423,"published":429,"publishedAt":430,"seo":431,"stem":432,"tags":433,"todo":423,"unpublished":429,"updatedAt":430,"__hash__":440},"pages/2026-06/2026-06-29/nand-ssd-for-ai-inference-cmx.md","AI推論はNAND SSDに何を求めているのか ― CMXという新しいメモリ階層",{"type":7,"value":8,"toc":413},"minimark",[9,22,25,28,31,57,62,65,72,79,86,98,101,105,112,137,144,147,172,175,195,202,209,216,220,227,230,250,253,262,266,273,276,299,306,310,316,325,328,354,364,370,381,384,387,390,401,404,407],[10,11,12,13],"p",{},"Computex で投資家から「TLC/QLC は書込耐久が悪いから、結局 SLC が AI で復権するのか」と何度も聞かれた、という話から始まる解説記事を読んだ。",[14,15,21],"a",{"href":16,"target":17,"rel":18},"https://www.viksnewsletter.com/p/what-ai-inference-actually-demands","_blank",[19,20],"noopener","noreferrer","→ What AI Inference Actually Demands From a NAND SSD（Vik's Newsletter, 2026-06）",[10,23,24],{},"筆者の答えは「SLC か否か」という二択そのものが古い、というものだった。NAND を「1つの素材」ではなく「メモリ階層の中で複数のサブティアに分岐したもの」として見直すと、AI 推論時代に NAND ベンダーで何が起きるかが見えてくる、と展開していく。",[10,26,27],{},"ここでは公開部分（CMX という位置づけと、セル設計のトレードオフまで）を日本語で整理する。本論の途中までで、有料部分（CMX 向け SSD の I/O サイズ・FDP・ベンダー競争力）はリンク先で読んでほしい。",[10,29,30],{},"結論を先に出す。",[32,33,34,43,50],"ul",{},[35,36,37,38,42],"li",{},"DRAM・HBM だけでは、エージェントが数時間〜数日かけて積み上げる",[39,40,41],"strong",{},"数十TB級の KV-cache"," を抱えきれない。NAND SSD がメモリとストレージの間に新しい層を作りつつある（NVIDIA はこれを CMX = Context Memory Storage と呼んでいる）",[35,44,45,46,49],{},"NAND の性格は",[39,47,48],{},"セルあたり何ビット入れるか","でほぼ決まる。状態数を増やすほど容量は伸びるが、書込速度と耐久は落ちる。逆に減らせばメモリ寄りになる",[35,51,52,53,56],{},"だから「NAND = コモディティ」というモデルは古く、",[39,54,55],{},"SSD は「メモリ寄りの層」「ストレージ寄りの層」に分岐","しつつある。投資家が見るべきは「どのベンダーが各サブティアを押さえるか」",[58,59,61],"h2",{"id":60},"nand-がメモリ階層に新しい層を作った","NAND がメモリ階層に新しい層を作った",[10,63,64],{},"エージェント型 AI が普及するにつれて、推論は「数分で終わるリクエスト」ではなくなった。タスクが数時間〜数日に伸び、その間ずっと過去のやり取り（コンテキスト）を抱えて参照し続ける必要が出てきた。",[10,66,67,68,71],{},"このコンテキストは KV-cache としてメモリに置く。1回のタスクで KV-cache が",[39,69,70],{},"数十TB","まで膨らむケースがあり、DRAM（HBM 含む）に置ききれない。HBM は容量当たり単価が最も高く、これだけで context を抱える設計は経済的に成立しない。",[10,73,74,75,78],{},"そこで NAND SSD が「メモリ寄りに調整された層」として推論パイプラインに割り込んできた。ストレージとしての NAND ではなく、",[39,76,77],{},"decode 中に読みに行く文脈の置き場所","としての NAND だ。なぜ「置き場所」ではなく「読みに行く先」と書いたかは次節で詳しく見る。DeepSeek v4 はこの前提で設計されていて、context を SSD にオフロードし、cache hit を最大化することでトークン単価を下げている。",[10,80,81,82,85],{},"NVIDIA はこの層を ",[39,83,84],{},"CMX（Context Memory Storage）"," と呼んでいる。HBM と通常の Storage SSD の間にもう1段、メモリ寄りに調整された NAND の層がある、という地図である。",[87,88,89,94],"figure",{},[90,91],"img",{"src":92,"alt":93},"/images/nand-ssd-for-ai-inference-cmx/figure-01.svg","HBM・DRAM・NAND CMX・Storage SSDの4階層が並び、NAND CMXが新しい中間層として強調されている図",[95,96,97],"figcaption",{},"図1: HBM/DRAM/NAND CMX/Storage SSDの4階層。NAND CMXは「メモリでもストレージでもない、context を抱えるための層」として割り込んでいる。",[10,99,100],{},"ここで CXL（CPU-Attached のプール DRAM）も同じ位置を狙うのではないか、という反論はある。CXL は別の有力候補で、メモリ階層上では NAND CMX とまた別のティアを占める。本論ではいったん脇に置く。",[58,102,104],{"id":103},"なぜストレージではなくメモリとして-nand-が要るのか","なぜ「ストレージ」ではなく「メモリ」として NAND が要るのか",[10,106,107,108,111],{},"ここが多くの人が腑に落ちないところだと思うので、噛み砕いて書く。",[39,109,110],{},"LLM 推論には性質の違う2フェーズがある","ことを先に押さえると、KV-cache の置き場所がなぜ経済性を決めるかが見える。",[32,113,114,124],{},[35,115,116,119,120,123],{},[39,117,118],{},"prefill",": ユーザーが投げ込んだプロンプト全体を一気に行列計算し、各トークンの K/V（Key / Value ベクトル）を求める。GPU の計算ユニットがフル回転する",[39,121,122],{},"計算支配","フェーズ",[35,125,126,129,130,133,134,123],{},[39,127,128],{},"decode",": 1トークンずつ生成する。1トークン出すたびに、",[39,131,132],{},"過去の全トークンの K/V を毎回読みに行く","。計算量自体は小さいが、メモリから KV-cache を流し込む帯域がボトルネックになる",[39,135,136],{},"メモリ支配",[10,138,139,140,143],{},"つまり KV-cache は「履歴を残すための保存場所」ではなく、",[39,141,142],{},"次の1トークンを出すたびに毎回スキャンされる作業領域","である。ユーザーが応答1文字を読むあいだに、その人の過去全文の K/V が一通り読み出されている、というイメージが正しい。",[10,145,146],{},"エージェントが普及して、ここに3つのことが同時に起きた。",[148,149,150,156,162],"ol",{},[35,151,152,155],{},[39,153,154],{},"1ユーザーあたりのコンテキストが10万〜100万トークン","に伸びる（コードベース全体、ドキュメント、過去の会話履歴を抱えたまま作業する）",[35,157,158,161],{},[39,159,160],{},"モデルが大きくなる","ほど1トークンあたりの K/V サイズも大きくなり、Llama 3 70B 級では1トークン数百KB、100万トークンで数百GB / 人",[35,163,164,167,168,171],{},[39,165,166],{},"1サーバーで何百ユーザーを並行処理","する設計なので、ホットな KV-cache の合計が",[39,169,170],{},"数十TB / サーバー","に膨らむ",[10,173,174],{},"ここで HBM・DRAM だけで凌ごうとすると経済性が壊れる。",[32,176,177,183,189],{},[35,178,179,182],{},[39,180,181],{},"HBM",": GPU 直結で最速だが容量が数百GB級。1人分でも溢れる",[35,184,185,188],{},[39,186,187],{},"CPU 側 DRAM",": TB クラスまで積めるが、数十TBを単一サーバーで持つのは単価が高すぎる",[35,190,191,194],{},[39,192,193],{},"従来の Storage SSD",": 容量は出るが、レイテンシが μs〜ms オーダーで、1トークン生成のレイテンシ予算（数ms）の中で間に合わない場面がある",[10,196,197,198,201],{},"だから「",[39,199,200],{},"DRAM ほど高速ではないが、Storage SSD よりは速く、容量当たり単価では NAND","」という新しい層が必要になる。これが CMX。decode 中に GPU が KV-cache を取りに来た時、μs オーダーで応答できる NAND、というのが要件になる。",[10,203,204,205,208],{},"「永続化のために NAND を使う」のは Storage SSD の発想で、「",[39,206,207],{},"毎秒何千回も読みに行かれることを前提に、メモリのように振る舞う NAND","」が CMX の発想、と切り分けると伝わりやすい。両者は同じ NAND チップを使っていても、コントローラ・I/O サイズ・ファームウェアの最適化が別物になる。",[10,210,211,212,215],{},"ここまで掴めれば、後の「セルあたり何ビット詰めるか」のトレードオフが、なぜ単なる容量の話ではなく",[39,213,214],{},"メモリとしての性格を決める設計選択","なのかが繋がる。",[58,217,219],{"id":218},"nand-の性格はセルあたり何ビット入れるかで決まる","NAND の性格は「セルあたり何ビット入れるか」で決まる",[10,221,222,223,226],{},"「メモリ寄り」「ストレージ寄り」を作り分けられる、というのは抽象的に聞こえるが、根っこにあるのは1つの単純な設計選択だ。",[39,224,225],{},"セル1個に何ビット詰めるか","。",[10,228,229],{},"NAND は電子の蓄え量で 0/1 を表す素子で、N レベルセルは 2^N 個の電圧状態を1つのセルに詰める。SLC（N=1）は 0/1 の2状態だけ、QLC（N=4）は 0000〜1111 の16状態を区別する。同じ面積に多くの状態を詰めれば容量は増えるが、その代償が3つある。",[148,231,232,238,244],{},[35,233,234,237],{},[39,235,236],{},"書込速度",": 書込みは ISPP（Incremental Step Pulse Programming）という、電圧を少しずつ上げながら目標状態に追い込む反復処理で行う。区別したい状態数が多いほど、塗り分けが細かくなり、反復回数が増えて遅くなる",[35,239,240,243],{},[39,241,242],{},"耐久",": 書込みを繰り返すと酸化膜が劣化し、状態を区別する電圧の境目がずれる。SLC は境目が1つだけだから多少ずれても判定できるが、QLC は15本の境目を全部維持しないとビットエラーが増える",[35,245,246,249],{},[39,247,248],{},"温度・経年でのドリフト耐性",": 同じく、状態数が多いほど境目がぶれた時の許容範囲が狭い",[10,251,252],{},"この3つを表に並べると、SLC〜QLC の性格差がはっきりする。",[87,254,255,259],{},[90,256],{"src":257,"alt":258},"/images/nand-ssd-for-ai-inference-cmx/figure-02.svg","SLC・MLC・TLC・QLCを5つの指標で並べた表。状態数が増えるほど容量が伸び、速度と耐久が下がる",[95,260,261],{},"図2: セル状態数を増やすほど容量は伸びるが、書込速度と耐久は下がる。NANDは1つの素材ではなく、性格を選び分ける連続的なティアになっている。",[58,263,265],{"id":264},"ハイブリッド設計でメモリ寄りストレージ寄りを作り分ける","ハイブリッド設計で「メモリ寄り」「ストレージ寄り」を作り分ける",[10,267,268,269,272],{},"実際の SSD は SLC〜QLC のどれか1つで作るとは限らない。",[39,270,271],{},"TLC 本体に SLC キャッシュを載せる","、という構成が主流で、書込みが集中する小領域だけ高速・高耐久にし、本体は容量を稼ぐ。読み出しが支配的なワークロード向けには SLC キャッシュをほぼ無効化して TLC の容量を全部出す、といった調整もできる。",[10,274,275],{},"CMX 用 SSD はこのハイブリッド設計の方向で「メモリ寄り」に振った製品になる。Storage SSD として最大容量を狙う製品とは別系統で、",[32,277,278,284,290,296],{},[35,279,280,283],{},[39,281,282],{},"読み出しスループット","を decode の token 速度に間に合わせる",[35,285,286,289],{},[39,287,288],{},"書込みは KV-cache の追記が中心","で、ランダム小書込みを高頻度でこなす",[35,291,292,295],{},[39,293,294],{},"I/O サイズ","を細かく刻めるよう、内部の indirection unit（IU）を小さくする",[35,297,298],{},"**書込み増幅（WAF）**を抑えるため、FDP（Flexible Data Placement）でホスト側からデータの寿命を教える",[10,300,301,302,305],{},"このあたりは原文の有料部分で詳しく展開されている。共通して言えるのは、",[39,303,304],{},"NAND は「容量と速度のどこに寄せるか」を製品レベルで選び分ける時代に入っている","ということだ。",[58,307,309],{"id":308},"ベンダーの製品ロードマップが分岐を裏付けている-kioxia-の例","ベンダーの製品ロードマップが分岐を裏付けている ― KIOXIA の例",[10,311,312,313,226],{},"ここまでの話は理屈の整理だが、NAND 最大手の1つである KIOXIA は、2026年の決算説明会で「AI 推論システム向け SSD/NAND への要求」というスライドを出していて、",[39,314,315],{},"この分岐をそのまま製品ライン化している",[87,317,318,322],{},[90,319],{"src":320,"alt":321},"/images/nand-ssd-for-ai-inference-cmx/kioxia-ai-inference-ssd-roadmap.png","KIOXIA 2026年決算スライド。推論GPUサーバー直下にCMXサーバー（TLC）とNVIDIA Storage-Nextサーバー（XL-FLASH）が並び、ストレージサーバー（QLC）が下層、RAGサーバーが横に並ぶ構成図",[95,323,324],{},"図3: KIOXIA 2026年決算スライドより。AI推論システム向けSSDを「CMX (TLC) / NVIDIA Storage-Next (XL-FLASH) / 大容量ストレージ (QLC)」の3用途に分けて製品計画を提示している。",[10,326,327],{},"このスライドを読み解くと、用途と NAND 種別の対応がはっきり書かれている。",[32,329,330,336,342,348],{},[35,331,332,335],{},[39,333,334],{},"Context Memory Storage (CMX) サーバー = TLC",": 高帯域 Read/Write が要件。KV-cache を decode 中に流し込む層",[35,337,338,341],{},[39,339,340],{},"NVIDIA Storage-Next サーバー = XL-FLASH",": 低レイテンシ / ランダム性能が要件。RAG や Vector DB のような「大量の小さな読み出し」が支配的なワークロード向け",[35,343,344,347],{},[39,345,346],{},"ストレージサーバー = QLC",": 大容量。生成結果や生データの永続化用",[35,349,350,353],{},[39,351,352],{},"RAG サーバー",": GPU+HBM（DB生成）/ CPU+DRAM（DB検索）の組み合わせで、NAND は脇役",[10,355,356,359,360,363],{},[39,357,358],{},"XL-FLASH"," は KIOXIA の高速 NAND ブランドで、SLC ベースでレイテンシを数 μs まで詰めた製品系列だ。Intel が 3D XPoint（Optane）から撤退した後、「DRAM ほど速くはないが通常 NAND よりはるかに速い」",[39,361,362],{},"ストレージクラスメモリ","の位置を狙っている。同じ NAND チップから派生していても、CMX 向けの TLC とは別物の最適化が施されている。",[10,365,366,369],{},[39,367,368],{},"NVIDIA Storage-Next"," は NVIDIA が定義した次世代の高速ストレージインターフェース仕様で、GPUDirect Storage 系の発展形にあたる。GPU から直接 SSD を叩く経路でレイテンシ・ランダム性能を稼ぐ設計で、ここに XL-FLASH を載せるのが KIOXIA の解、ということになる。",[10,371,372,373,376,377,380],{},"つまり1社の中ですら、AI 推論向け SSD は",[39,374,375],{},"少なくとも3つの製品ライン","に分岐している。「NAND = 1つのコモディティ」というモデルではこの分岐は説明できない。「",[39,378,379],{},"用途別の性能サブティア","」として見ると、ベンダーが何を作っているかが素直に読める。",[10,382,383],{},"他社（Samsung、SK Hynix・Solidigm、Micron、WDC など）も同様の用途別ロードマップを順次出してくるはずで、CMX 用 TLC・SCM 用 SLC（XL-FLASH 相当）・大容量 QLC のそれぞれで誰が先頭を取るかが、これからの NAND 投資の見どころになる。",[58,385,386],{"id":386},"投資家視点で何が起きるか",[10,388,389],{},"ここから先は原文の問題提起で、答えは有料部分にある。要点だけ書く。",[32,391,392,395,398],{},[35,393,394],{},"NAND は「1つの素材」ではなく「メモリ寄りのサブティア / ストレージ寄りのサブティア」に分岐しつつある",[35,396,397],{},"CMX 向けの SSD は、容量だけ追えばよい従来の Storage SSD とは別の最適化が要求される（I/O サイズ・WAF・FDP・非対称な read/write 帯域）",[35,399,400],{},"どのベンダーがどのサブティアを押さえているかで、AI 推論時代の NAND 市場の勝敗が決まる",[10,402,403],{},"投資家として手元のチェックリストに追加するなら、Micron・SK Hynix・Samsung・Kioxia・WDC・Solidigm のどこが「CMX 向け SSD のスペックシートを最初に出すか」「FDP 対応をどう進めるか」あたりを見ておくと、ニュースの読み方が変わる。",[10,405,406],{},"ここから先（CMX 向け SSD の具体仕様と各社の競争力）は元記事を読むのが早い。",[10,408,409],{},[14,410,412],{"href":16,"target":17,"rel":411},[19,20],"→ What AI Inference Actually Demands From a NAND SSD（Vik's Newsletter）",{"title":414,"searchDepth":415,"depth":415,"links":416},"",2,[417,418,419,420,421,422],{"id":60,"depth":415,"text":61},{"id":103,"depth":415,"text":104},{"id":218,"depth":415,"text":219},{"id":264,"depth":415,"text":265},{"id":308,"depth":415,"text":309},{"id":386,"depth":415,"text":386},null,"DRAMだけではエージェント時代のKV-cacheを抱えきれない。NAND SSDはセル設計で性格を選び分けることで、メモリとストレージの間に「文脈を置く層」を作りつつある。Vik's Newsletterの解説を整理した。","md",{},true,"/nand-ssd-for-ai-inference-cmx",false,"2026-06-29T00:00:00.000Z",{"title":5,"description":424},"2026-06/2026-06-29/nand-ssd-for-ai-inference-cmx",[434,435,436,437,438,439],"NAND","SSD","AI推論","メモリ階層","KV-cache","半導体","DSN-Mn7p1q8Nd8R42Hxnp5uPjdZ-04DASDMk96KPPLk",[],"https://log.eurekapu.com/og/blog/nand-ssd-for-ai-inference-cmx.png?v=2026-06-29T00%3A00%3A00.000Z&title=AI%E6%8E%A8%E8%AB%96%E3%81%AFNAND%20SSD%E3%81%AB%E4%BD%95%E3%82%92%E6%B1%82%E3%82%81%E3%81%A6%E3%81%84%E3%82%8B%E3%81%AE%E3%81%8B%20%E2%80%95%20CMX%E3%81%A8%E3%81%84%E3%81%86%E6%96%B0%E3%81%97%E3%81%84%E3%83%A1%E3%83%A2%E3%83%AA%E9%9A%8E%E5%B1%A4&author=Kei%20Komatsu&sig=7b62bb4c90080011",1782885017459]