AIエージェント全滅47%止まり|IBM新ベンチが暴く現場の実力

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • IBMとArtificial Analysisが企業IT業務向け新ベンチマーク「ITBench-AA」を2026年5月27日に公開した
  • Kubernetes障害対応の59タスクをAIエージェントに解かせたところ、最高スコアはClaude Opus 4.7の47%で全モデルが50%未満だった
  • GPT-5.5は46%、Qwen3.7 Maxが42%、開放重みではGLM-5.1が40%とトップ陣営は僅差で並ぶ
  • 1タスクあたりのコストはClaude Opus 4.7が5.38ドル、Gemma 4 31Bが0.14ドルと約38倍の開きがあった
  • 会話ターン数が多くても精度は伸びず、「長く考えれば賢い」という常識は通用しないことが判明した

「AIエージェントが社内のIT運用を全部やってくれる時代が来る」――そんな期待を聞いたことはありませんか。2026年5月27日、IBMとArtificial Analysisが公開した新ベンチマークITBench-AAの結果は、その夢に冷や水を浴びせるものでした。最新のAIエージェント8種類を企業IT業務に投入したところ、全モデルが正答率50%を割り込んだのです。

ITBench-AAとは何か

IBMとArtificial Analysisが半年がかりで開発

ITBench-AAは、企業の現場で発生する「Agentic(エージェント的)IT業務」をAIモデルがどこまでこなせるかを測る初の標準ベンチマークです。

IBMの企業IT運用ノウハウと、AI評価専門会社Artificial Analysisの測定インフラを掛け合わせ、約6か月かけて作り上げられました。

このベンチマークの第1弾は「SRE(サイト信頼性エンジニアリング)」、つまりサーバー障害対応の領域に絞られています。今後はFinOps(クラウド費用最適化)やCISO(情報セキュリティ責任者)の業務へと範囲を広げていく予定です。

なぜこのベンチマークが必要だったのか

従来のAIベンチマークは「数学が解ける」「コードが書ける」といった単発タスクが中心でした。

一方、企業の現場では長時間にわたって複数のツールを操作し、自律的に判断するエージェント能力が問われます。この差を埋めるための実地テストが、これまで存在しなかったのです。

IBMの研究ブログでは「エージェントが本当に仕事で役立つかどうかを、ようやく数値で測れるようになった」と説明されています。

59タスクの中身:Kubernetes障害を解け

本番環境さながらの混乱を再現

ITBench-AAのSREタスクは、Kubernetes(コンテナ運用ツール)で発生した障害スナップショットを59件用意し、AIエージェントに原因を突き止めさせます。

内訳は公開40件+非公開19件。非公開分はモデル開発者がカンニングできないよう隠されています。

エージェントに与えられるのは、警告ログ・イベント・トレース・メトリクス・トポロジー情報など、現場のSRE担当者が見るものとほぼ同じ材料です。

採点ルールは「ひとつでも漏らしたらゼロ点」

採点は「全部見つけた前提での正確さ(average precision at full recall)」で行われます。

つまり、根本原因をひとつでも見落とすとそのタスクは0点。すべて挙げきって初めて、誤検出が少なかった割合が得点になります。

ある中小企業のインフラ担当者が深夜に呼び出される場面を想像してみてください。複数のサーバーで同時にエラーが出ているとき、「3つあるうち1つだけ報告」では復旧できません。ITBench-AAは、その現実の厳しさをそのまま採点に持ち込んでいます。

各タスクは最大100ターンの試行錯誤を3回繰り返した平均で測ります。

気になる結果:全モデルが50%の壁を越えられず

トップはClaude Opus 4.7の47%

結果ランキングはこうなりました。

  • Claude Opus 4.7(Anthropic):47%
  • GPT-5.5(xhigh)(OpenAI):46%
  • Qwen3.7 Max(Alibaba):42%
  • GLM-5.1(Reasoning):40%
  • Gemini 3.5 Flash(high)(Google):40%
  • DeepSeek V4 Pro:38%
  • Gemma 4 31B(Google):37%
  • Gemini 3.1 Pro Preview:30%

注目すべきは、Artificial Analysisが「このベンチマークは現存するエージェントテストの中で最も飽和していない(=まだ伸びしろがある)」と評価している点です。

つまり、AIモデルの実力が頭打ちになっていないテストなので、今後のモデル進化を測る物差しとして長く使えるということ。

「考える時間が長い=賢い」は嘘だった

もうひとつ面白い発見があります。

GPT-5.5は平均31ターンで46%を達成しました。一方、Gemini 3.1 Pro Previewは平均83ターンも費やして30%。ターン数は約2.7倍なのに、正答率は逆に低くなっています。

「とにかく長く粘れば正解にたどり着く」という単純な発想は通用しません。むしろ、最初の数ターンで筋の良い仮説を立てられるかが勝負だと示されました。

コストと性能のジレンマ

1タスク5.38ドルか、0.14ドルか

AIエージェントは「何回もモデルを呼び出す」ので、コストは無視できません。

ITBench-AAの結果から、1タスクあたりのコストはこうなりました。

  • Claude Opus 4.7:5.38ドル(約840円)/47%
  • Gemini 3.1 Pro Preview:2.23ドル/30%
  • Gemini 3.5 Flash(high):1.70ドル/40%
  • GLM-5.1(Reasoning):1.23ドル/40%
  • Gemma 4 31B:0.14ドル/37%

もっとも安いGemma 4 31Bは、Claude Opus 4.7と比べて約38分の1のコストで37%の正答率を出しました。

つまり、最高性能を1問正解するのに840円かかる一方、「だいたい同じくらい」なら20円台で済むモデルもあるわけです。

企業はどこで線を引くべきか

実運用で考えると、決済時の本人確認のように絶対に間違えてはいけない場面では、Claudeを使うコストは正当化されます。

逆に、ログ解析の一次切り分けのように人間が最終判断する前段であれば、Gemmaのような安価なモデルで十分かもしれません。

「AIエージェント=高性能モデル1択」ではなく、業務ごとにモデルを使い分ける時代になりつつあります。

他のエージェントベンチマークとの違い

SWE-benchやMMLUとの差

これまでも有名なベンチマークはありました。代表的なものを比較してみます。

  • MMLU:大学レベルの知識クイズ。GPT-5.5やClaude Opus 4.7はすでに90%超を記録
  • SWE-bench Verified:GitHubの実バグ修正。Claude Opus 4.7が80.8%でトップ
  • ITBench-AA SRE:本番想定のKubernetes障害対応。最高でも47%

MMLUは「知識量」、SWE-benchは「コードを直す力」を測ります。一方、ITBench-AAは「システムを観察し、原因を推測し、複数ツールを使って検証する」という、より人間のIT担当者に近い能力を試します。

同じトップモデルでも、知識テストでは90%、コード修正では80%、しかし企業IT運用では47%――この落差こそが、Agentic AIの真の課題なのです。

オープンソース戦略の意義

ITBench本体はGitHub(itbench-hub/ITBench)で公開され、評価ハーネスの「Stirrup」もオープンソースです。

これは「特定ベンダーが有利になる隠し設定」を防ぎ、各社が同じ土俵で測られる仕組みを作るためです。Hugging Faceには学習軌跡データセットも公開されています。

日本市場への影響

「AIに全部任せる」プロジェクトは時期尚早

日本企業の多くがいま、AIエージェント導入の検討段階にあります。とくに人手不足が深刻なIT運用部門では、「夜間障害対応をAIに任せたい」という声が強くあります。

ITBench-AAの数字は、その期待にブレーキをかけます。最高でも47%、つまり2回に1回は根本原因の特定に失敗する水準では、無人運用は危険です。

当面は「AIエージェントが一次切り分けして、人間が最終判断」というハイブリッド構成が現実解になりそうです。

国産SIerが続々とClaude採用

この結果は、ベストスコアを記録したClaude Opus 4.7を擁するAnthropicに追い風です。

実際、2026年5月にはNEC・日立・富士通の国内SIer3社がそろってAnthropicとの協業を発表しました。日本のIT運用業務にClaudeが食い込みつつあるのは、こうしたベンチマーク結果に裏打ちされた動きだと言えます。

一方、コスト面で優位なGemmaやDeepSeekも、業務領域を選べば十分戦える存在として残ります。日本の中堅企業がコスト感度を重視するなら、安価モデルの存在価値は今後も大きいでしょう。

よくある質問(FAQ)

Q. ITBench-AAは誰でも試せますか?

A. はい。データセットとハーネスはオープンソースとして公開されており、誰でも自分のモデルを評価できます。公開分の40タスクで予備テストし、非公開19タスクは公式リーダーボードで検証する仕組みです。

Q. なぜ50%を超えられないのですか?

A. SRE業務は「複数の症状を観察し、原因の連鎖を遡り、すべての根本原因を漏らさず特定する」必要があるためです。1つでも見落とすと0点という採点ルールも厳しく、知識クイズとは難易度の質が違います。

Q. AIエージェントへの投資は無駄ですか?

A. 無駄ではありません。47%でも、人間が一次切り分けする時間を大幅に削減できれば十分価値があります。ポイントは「全自動」を目指さず、人間との分業をどう設計するかです。

Q. 今後どのくらいで50%を超えますか?

A. Artificial Analysisは「まだ飽和していない」と述べており、半年〜1年で50%突破の可能性はあります。ただし、FinOpsやCISO業務に拡張されると、また新しい壁が出てくる可能性が高いです。

Q. 日本語のIT業務でも同じ結果になりますか?

A. 現時点のテストは英語環境ですが、Kubernetesのログやコマンドは元々英語が標準です。日本語での運用指示が混じる場合は、別途検証が必要になるでしょう。

まとめ

  • IBMとArtificial AnalysisがAgentic IT業務向けの新ベンチマーク「ITBench-AA」を公開した
  • 59のKubernetes障害タスクで、全フロンティアモデルが正答率50%未満に止まった
  • トップはClaude Opus 4.7の47%、最安はGemma 4 31Bの0.14ドル/タスク
  • 「長考すれば賢くなる」は通用せず、初動の仮説精度が重要だと判明した
  • AIエージェントの過剰期待は時期尚早、当面は人間との分業設計が現実解になる

AIエージェントの導入を検討している企業は、自社業務の重要度に合わせてモデルを使い分ける視点を持つことが、これからの競争力につながりそうです。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です