GooglebotはHTMLの最初の2MBしか読まない — 公式ブログで改めて明言

何が起きたのか

2026年3月31日、GoogleのGary Illyesが公式ブログで「Inside Googlebot: demystifying crawling, fetching, and the bytes we process」を公開した。Googlebotのクロールアーキテクチャとバイトサイズ制限について、技術的な詳細が初めて体系的に語られた記事だ。

核心はシンプル: GooglebotはHTMLを最初の2MBまでしか取得しない。2MBを超えた部分は、クロールもレンダリングもインデックスもされない。

確認された仕様

ファイルタイプ別の取得上限

ファイルタイプ	上限
HTML	2MB
CSS / JavaScript（各リソース個別）	2MB
PDF	64MB
Googleクロールインフラ全体のデフォルト	15MB

重要な仕様詳細

非圧縮データに対して2MBが適用される（gzip転送後のサイズではない）
HTTPレスポンスヘッダーも2MBのカウントに含まれる
CSS・JavaScriptは親HTMLとは別カウント。各外部リソースに個別で2MB制限が適用される
上限に達した時点でフェッチを停止し、ダウンロード済みの部分だけがインデックス対象になる
コンテンツは文字の途中であっても容赦なく切断される

フェッチ段階で切れる

2MB制限が適用されるのはフェッチ段階（raw HTML） だ。Web Rendering Service（WRS）は、フェッチ段階で切り詰められたデータを「完全なファイル」として受け取る。つまりレンダリング以降の工程では、切断されたことすら認識されない。

これは新しい制限ではない

ここが誤解されやすい。Googlebotは以前から2MBしか見ていなかった。 ドキュメント上は「15MB」と記載されていたが、2026年2月に修正された。Googleはこれを「動作変更」ではなく「ドキュメントの明確化」と説明している。

タイムライン

時期	出来事
2022年6月	Googleが15MB制限を公式文書化。「この制限は新しいものではなく、何年も前から存在していた」と説明
2026年2月3日	ファイルサイズ制限ドキュメントが改訂。15MBから2MBへの変更が文書化される
2026年2月6日	John MuellerがBlueskyで2MBチェックツールを推奨
2026年3月31日	Gary Illyesのブログ記事で技術的詳細が公開

発端は、Mark van Ments氏がGoogle Search Central Help Communityで自サイトのコンテンツが途中で切れる問題を報告したことだった。Google担当者が「ドキュメントが間違っていた。Googlebotはraw HTMLの最初の2MBしか見ていない」と回答し、ドキュメント修正につながった。

Search Consoleでは検出できない

Spotibo社が実テストで確認した、SEO担当者にとって最も厄介な事実がある。

Search Consoleは警告を出さない。 2MBを超えたページでも「インデックス登録済み」と正常表示される
URL Inspectionツールは別のクローラー（Google-InspectionTool）を使う。このクローラーの上限は15MBなので、実際のGooglebotとは異なる結果を返す
つまり、URL Inspectionで問題なしと表示されても、本番のGooglebotでは切断されている可能性がある

実際どのくらいのサイトが影響を受けるか

Web Almanac 2025のデータによると:

指標	サイズ
HTML中央値（モバイル）	約33KB
90パーセンタイル	約392KB
2MB超えの割合	全ページの0.82%

99%以上のサイトは問題ない。ただし以下のパターンは危険:

Base64画像のインライン埋め込み: data URIで画像をHTMLに直接記述
巨大なインラインCSS/JavaScript: 外部ファイル化されていないスタイルやスクリプト
大量のナビゲーション: メガメニューやサイドバーがHTML上部を占有
大規模な商品リスト: ECサイトのカテゴリページで数百商品を1ページに展開

SEOで気をつけること

重要なものを上に置く

Googlebotが確実に読む範囲に、重要なコンテンツを配置する。

<title>, <meta>, <link rel="canonical">
構造化データ（JSON-LD）
本文コンテンツ

構造化データをフッターに置いているサイトは、2MBに引っかからなくてもHTMLの下部にあるだけでリスクがある。<head>内に移すのが安全だ。

HTMLを軽くする

インラインCSS/JSを外部ファイルに分離する
Base64画像を通常の<img>タグに置き換える
不要なDOM要素を削減する

JS依存を減らす

SSR（サーバーサイドレンダリング）またはSSG（静的サイト生成）を使う
初期HTMLにコンテンツを含める
SPAで後から読み込むコンテンツは、Googlebotにとって存在しない

Gary Illyesの記事でも、「フェッチされた範囲のJavaScriptしか実行されない」と明記されている。

このサイトは大丈夫か

このブログ（mdx-playground）の全782記事を調査した結果:

指標	結果
最大のMarkdownソース	約55KB（`skill-authoring-best-practices.md`）
50KB超のファイル数	3件
100KB超のファイル数	0件
全記事の合計	約881KB

最大の記事でも55KB。HTMLテンプレート（ナビゲーション、head、スクリプト参照等）を加えても200KB前後で、2MBの10分の1にも満たない。全記事が2MB制限の圏内に収まっている。

SSGで静的HTMLを生成しているため、JS依存の問題もない。

出典

Google公式

Gary Illyes, "Inside Googlebot: demystifying crawling, fetching, and the bytes we process", Google Search Central Blog, 2026-03-31
"What Is Googlebot", Google Search Central Documentation
"Overview of Google Crawlers and Fetchers", Google Crawling Infrastructure Documentation
Gary Illyes, "Googlebot and the 15 MB thing", Google Search Central Blog, 2022-06

SEO専門メディア

"Google Explains Googlebot Byte Limits And Crawling Architecture", Search Engine Journal, 2026-04-01
"Google Updates Googlebot File Size Limit Docs", Search Engine Journal, 2026-02-03
"What Googlebot's 2MB Crawl Size Limit Means For SEO", DebugBear, 2026-02-16
"Google explains how crawling works in 2026", Search Engine Land

独立テスト・検証

"We Tested Google's New 2MB Crawl Limit", Spotibo
"Googlebot 2 MB Crawl Limit: What Really Changed", SEO Kreativ