[{"data":1,"prerenderedAt":17},["ShallowReactive",2],{"tag-articles-SWE-bench":3},[4],{"title":5,"description":6,"path":7,"tags":8,"publishedAt":15,"updatedAt":16},"Claude 3.5 SonnetでSWE-bench Verifiedの記録を更新","Anthropicのアップグレード版Claude 3.5 Sonnetが、SWE-bench Verifiedで49%の精度を達成し、従来の最高記録45%を上回った。エージェントアーキテクチャ、ツール設計、そして実世界のソフトウェアエンジニアリング課題への適用について解説。","/swe-bench-sonnet",[9,10,11,12,13,14],"Claude","SWE-bench","AI","ソフトウェアエンジニアリング","ベンチマーク","エージェント","2025-12-30T00:00:00.000Z",null,1781076276235]