Claude Sonnet 5が登場!SWE-Bench歴代最高82.1%の衝撃

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube

この記事でわかること

  • Anthropicの新モデル「Claude Sonnet 5」がどんなAIなのか
  • SWE-Bench 82.1%という驚異きょういのスコアの意味
  • 100万トークンのコンテキストウィンドウで何ができるか
  • 「Dev Team Mode」でAIがチームのように働く仕組み
  • 料金や他のAIモデルとの比較

Claude Sonnet 5(Fennec)とは?

2026年2月3日、AI開発企業のAnthropic(アンソロピック)が新しいAIモデル「Claude Sonnet 5」を正式にリリースしました。社内コードネームは「Fennec(フェネック)」。小さなキツネの名前がついたこのモデルは、実力はまったく小さくありません。

つまり、Claude Sonnet 5は「より賢く、より速く、より安い」を同時に実現したAIモデルです。これまでの最上位モデルだったClaude Opus 4.5よりもコーディング能力が高く、それでいて料金は約80%も安いのが特徴です。

モデルIDは claude-sonnet-5-20260203 で、Anthropic API、Claude Pro(月額20ドル)、Google Vertex AIなどから利用できます。

SWE-Bench 82.1%が意味すること

Claude Sonnet 5の最大の話題は、SWE-Bench Verifiedで82.1%というスコアを達成したことです。SWE-Bench(ソフトウェア・エンジニアリング・ベンチ)とは、AIが実際のソフトウェアのバグをどれだけ自力で直せるかを測るテストのことです。

たとえるなら、「AIに本物のプログラマーの仕事をやらせて、どれくらいできるか採点する試験」です。これまで80%の壁を超えたモデルはありませんでした。Claude Sonnet 5はこの壁を初めて突破とっぱしたのです。

ちなみに、前モデルのClaude Opus 4.5は80.9%、ライバルのGPT-5は推定すいてい78%ほどと言われています。82.1%という数字は、AIが新人しんじんエンジニアと同じレベルでバグ修正ができることを意味しています。

100万トークンの巨大コンテキストウィンドウ

コンテキストウィンドウとは、AIが一度に読める情報の量のことです。Claude Sonnet 5では、なんと100万トークン(約75万語)を一度に処理できます。

これがどれくらいスゴいかというと、一般的な小説が約10万字ですから、本7〜8冊分の情報を一度に読み込めるイメージです。前モデルのOpus 4.5は20万トークンだったので、5倍に拡大されたことになります。

たとえば、大きなプログラムの全体を一度に読み込んで「ここにバグがあるよ」と教えてくれるようになります。これまではプログラムを細切れにして何回も質問する必要がありましたが、その手間がなくなるのです。

さらに、GoogleのAntigravity TPU(高速AI処理しょりチップ)に最適化されており、100万トークンでも従来の20万トークンと同じくらいの速さで動作すると言われています。

Dev Team Mode:AIがチームで働く新機能

Claude Sonnet 5で注目されている新機能が「Dev Team Mode(デブ・チーム・モード)」です。これは、1つのAIが複数の専門せんもんエージェント(役割を持ったAI)に分かれて、チームのように並行して作業する仕組みです。

具体的には、こんなふうに動きます。

  1. マネージャーエージェントがユーザーの目標を分析する
  2. バックエンドエージェントがAPIのコードを書く
  3. QA(品質管理)エージェントがテストコードを作る
  4. インフラエージェントがサーバー設定を整える

つまり、人間の開発チームと同じように、それぞれの担当がいっぺんに仕事を進めてくれるわけです。しかも、AIは自分で書いたコードを実行して、エラーがあれば自分で直すこともできます。

料金はOpus 4.5の約5分の1

Claude Sonnet 5の料金体系は次のとおりです。

  • 入力:100万トークンあたり3ドル(約450円)
  • 出力:100万トークンあたり15ドル(約2,250円)

前モデルのOpus 4.5は入力15ドル・出力75ドルだったので、約80%のコスト削減です。性能は上がっているのに値段は大幅に下がるという、ユーザーにとってうれしい価格設定になっています。

ちなみに、Claude Proプラン(月額20ドル)に加入すれば、個人でもClaude Sonnet 5を使うことができます。開発者であれば、APIを通じてアプリやサービスに組み込むことも可能です。

競合モデルとの比較

2026年2月時点での主要AIモデルとClaude Sonnet 5を比較してみましょう。

モデル名SWE-Benchコンテキスト入力料金(100万トークン)
Claude Sonnet 582.1%100万$3
Claude Opus 4.580.9%20万$15
GPT-5(OpenAI)約78%20万$10〜
Gemini 2.5 Pro(Google)非公開100万$3.50

こうして見ると、Claude Sonnet 5はコーディング性能・コンテキストサイズ・料金のすべてでバランスが良いことがわかります。とくにソフトウェア開発の分野では、現時点で最もコストパフォーマンスの高いモデルと言えるでしょう。

まとめ

Anthropicの「Claude Sonnet 5(Fennec)」は、AIコーディングの新時代を切り開くモデルです。最後にポイントを振り返りましょう。

  • SWE-Bench 82.1%で、AIとして初めて80%の壁を大きく突破とっぱ
  • 100万トークンのコンテキストウィンドウで、大規模プロジェクトも丸ごと理解
  • Dev Team Modeで、AIが複数エージェントに分かれてチーム作業
  • Opus 4.5と比べて約80%のコスト削減(入力100万トークンあたり3ドル)
  • Google Antigravity TPU対応で高速処理を実現

プログラマーだけでなく、AIを活用したいすべての人にとって注目のモデルです。「AIが本当にエンジニアの仕事をする時代」が、また一歩近づいたと言えるでしょう。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です