• #Claude
  • #SWE-bench
  • #AI
  • #ソフトウェアエンジニアリング
  • #ベンチマーク
  • #エージェント

評価: 参考情報

この記事はSWE-benchベンチマーク結果に関する技術的な解説です。Claude Codeユーザーにとっては以下の点で参考になります:

  • エージェントアーキテクチャの理解: Claude Codeが採用しているツール設計(Bashツール、編集ツール)の背景思想を理解できる
  • モデルの能力把握: Claude 3.5 Sonnetの自己修正能力や問題解決アプローチの特徴を知ることで、より効果的な指示が可能に
  • 制約の認識: トークン消費量、マルチモーダル制限などの実際の制約を理解し、期待値を適切に設定できる

ただし、具体的な設定変更や操作手順は含まれていないため、直接的な実践ガイドではありません。

Claude 3.5 SonnetでSWE-bench Verifiedの記録を更新

公開日: 2025年1月6日 著者: Erik Schluntz(Anthropic)

原文: Raising the bar on SWE-bench Verified with Claude 3.5 Sonnet


概要

アップグレード版のClaude 3.5 SonnetはSWE-bench Verifiedで49%の精度を達成し、従来の最高記録45%を上回りました。この成果は、思慮深いエージェントスキャフォールディングと高度な言語モデルの組み合わせが、複雑で現実世界のソフトウェアエンジニアリング課題に対処できることを示しています。

SWE-benchとは

SWE-benchは、AIシステムが「人気のあるオープンソースPythonリポジトリからのGitHub issueを解決する」能力を評価します。孤立したコーディング問題ではなく、マージされたプルリクエストからの本物のユニットテストを持つ本格的なエンジニアリングタスクに対してモデルをテストします。

評価はSWE-bench Verifiedに焦点を当てています。これは人間がレビューして解決可能性を確認した500問題の厳選されたサブセットで、より広範なデータセットよりも明確なパフォーマンス評価を提供します。

エージェントアーキテクチャ

成功したアプローチは、最小限のスキャフォールディングとモデルの最大限の自律性を重視しました。システムには以下が含まれていました:

  • Bashツール: エスケープ、インターネット制限、バックグラウンドプロセスに関する詳細なガイダンス付きでコマンドを実行
  • 編集ツール: ファイル操作(表示、作成、文字列置換、挿入、編集取り消し)を管理し、エラーを防ぐために絶対パスを重視
  • 柔軟なプロンプト: 厳格なワークフローを強制せず、推奨手順を概説

パフォーマンス比較

モデルスコア
Claude 3.5 Sonnet(新)49%
従来の最高記録45%
Claude 3.5 Sonnet(旧)33%
Claude 3 Opus22%

実世界の例

記事では、scikit-learnのRidgeClassifierCVに関する実践的なケースを示しています。モデルは不足していたstore_cv_valuesパラメータのサポートを追加する必要がありました。エージェントは以下を成功裏に実行しました:

  1. リポジトリ構造の探索
  2. カスタムテストスクリプトでエラーを再現
  3. ソースコードを適切に修正
  4. 修正が機能することを検証

重要な技術的洞察

ツール設計の哲学

誤解を防ぐため、ツールの説明に多大な労力を投じました。例えば、Bashツールの説明は、モデルが犯す可能性のある一般的なミスを事前に対処しています。

文字列置換戦略

ファイル編集には、文字列置換が最も信頼性が高いことが判明しました。old_strの正確なマッチを要求することで、他の場所での偶発的な変更を防ぎます。

エラー防止

必須の絶対パスにより、エージェントがディレクトリを変更した際のナビゲーションエラーを防止しました。

注目すべき課題

  1. トークンコスト: 成功した実行では数百回のターンにわたって10万トークン以上を頻繁に消費し、評価コストが高くなる
  2. 採点の複雑さ: 環境の問題やインストールの問題が、実際のモデルパフォーマンスを曖昧にすることがある
  3. 隠れたテスト: モデルは採点基準を見ることができず、誤った解決策に対する偽の自信につながる
  4. マルチモーダルの制限: ビジュアルファイル検査がないため、特にmatplotlib関連のタスクでデバッグが妨げられた

自己修正能力

以前のモデルと比較して、Claude 3.5 Sonnetは改善された自己修正行動と、同じ間違いを繰り返すのではなく代替の解決アプローチを試す粘り強さを示しました。

開発者への示唆

記事は、基盤となるモデルの能力がすでに大幅に向上しているため、より良いスキャフォールディングの最適化を通じて将来の改善が達成可能であることを示唆しています。49%のベンチマークは進歩を表していますが、より高いスコアに向けてかなりの余地が残っています。

謝辞

主要なチームメンバー: Erik Schluntz、Simon Biggs、Dawn Drain、Eric Christiansen、Shauna Kravec、Felipe Rosso、Nova DasSarma、Ven Chandrasekaran