• #anthropic
  • #claude
  • #postmortem
  • #infrastructure
  • #tpu
  • #debugging

この記事はAnthropicのインフラ障害に関する技術的ポストモーテムであり、Claude Codeの使い方を変えるための直接的なガイドではありません。参考情報として以下のように評価できます:

項目評価備考
Claude Codeでの直接利用参考情報ユーザー側で対処できる問題ではない
障害の認識有用応答品質低下時の原因理解に役立つ
バグ報告の重要性実践可能/bugコマンドで問題報告が推奨
期間中の影響過去の事象2025年9月中旬までに全て解決済み

3つの最近の問題に関するポストモーテム

原文: A postmortem of three recent issues

概要

2025年8月から9月初旬にかけてAnthropicは断続的にClaudeの応答品質を低下させていた3つのインフラバグを特定し解決しました。本記事では何が起こったのか、なぜ検出に時間がかかったのか、どのような改善を実施しているのかについて詳しく説明します。

3つのバグ

1. コンテキストウィンドウのルーティングエラー(8月5日〜9月18日)

8月5日に導入された設定ミスにより、短いコンテキストのSonnet 4リクエストが、100万トークンのコンテキストウィンドウ用に設定されたサーバーに誤ってルーティングされました。

  • 初期影響: Sonnet 4リクエストの0.8%に影響
  • 影響拡大: 8月29日のロードバランシング変更により、ピーク時には16%まで拡大
  • Claude Codeへの影響: 約30%のClaude Codeユーザーが少なくとも1回の誤ルーティングされたメッセージを経験
  • 修正: 9月4日にルーティングロジックを修正し、9月18日に完全展開完了

2. 出力の破損(8月25日〜9月2日)

8月25日のTPUサーバーの設定ミスにより、予期しないトークン確率の割り当てが発生しました。

症状:

  • 英語の応答にタイ語や中国語の文字が出現
  • コードにおける構文エラー

影響範囲:

  • Claude APIのOpusおよびSonnetモデルに影響
  • サードパーティプラットフォームには影響なし

対応: 9月2日に変更をロールバック。その後、デプロイ手順に異常出力の検出テストを追加しました。

3. XLA:TPUコンパイラのバグ(8月25日〜9月12日)

8月25日のトークン選択コードの改善により、近似top-k操作に影響を与える潜在的なコンパイラのバグが露呈しました。

症状:

  • 「苛立たしいほど一貫性のない」動作
  • 同じプロンプトが予測不能に成功したり失敗したりする

根本原因:

  • 精度の不一致が原因
  • モデルはbf16(16ビット)で確率を計算
  • TPUコンパイラはfp32(32ビット)に最適化
  • 異なる精度レベルが最高確率トークンについて意見が一致しない

解決策:

  • チームは近似top-kから正確なtop-k操作に切り替え
  • わずかな効率低下を受け入れ、モデル品質を優先

経緯:

  • 2024年12月の回避策がより深い近似top-kバグをマスクしていた
  • その回避策が削除されたことでバグが露呈
  • 9月4日〜12日にかけて影響を受けたモデルでロールバックを実施

検出が困難だった理由

Anthropicは以下のような複数のギャップを認めました:

  1. 評価の限界: 評価プロセスがユーザーから報告された品質低下を捉えられなかった。「Claudeは孤立したミスからうまく回復することが多い」ため、問題が見えにくかった
  2. プライバシー制限: プライバシー管理により報告されていないユーザーとのやり取りへのエンジニアのアクセスが制限され、診断が複雑化
  3. 複合的な症状: 異なるバグがプラットフォームごとに異なる症状を生成し、体系的な問題ではなくランダムな品質低下のような矛盾したレポートとなった
  4. ノイズの多い評価への依存: ノイズの多い評価により、問題を特定の変更に結びつけることができなかった

今後の改善

Anthropicは以下を実施しています:

  • より敏感な評価: 動作している実装と壊れている実装をより適切に区別できる評価の導入
  • 継続的な本番監視: デプロイに関連する問題をより早期に検出するための品質評価の継続実施
  • 強化されたデバッグインフラ: ユーザープライバシーを尊重しながらフィードバック分析を改善
  • コミュニティシグナルの統合: フィードバックメカニズムを通じたユーザーレポートのより良い活用

重要な声明

Anthropicは次のことを強調しました:

「需要、時間帯、サーバー負荷によってモデル品質を低下させることは決してありません」

これらは純粋にインフラのバグでした。

バグの報告方法

ユーザーは以下の方法で問題を報告できます:

  • Claude Code: /bugコマンドを使用
  • Claudeアプリ: 「サムズダウン」ボタンを使用