ITBench-AAとは|最強AIもIT運用50%未満

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • ITBench-AAは、AIが企業のIT運用をどれだけこなせるかを測る世界初のベンチマーク(性能テスト)です
  • IBMとArtificial Analysisが2026年5月27日に公開しました
  • 最強のClaude Opus 4.7でも47%。すべてのモデルが50%の壁を越えられませんでした
  • 「たくさん調べるほど高得点」ではなく、調べすぎは逆に減点されます
  • 日本企業でAIエージェントを本番運用できている割合はわずか3.3%。理想と現実のギャップが見えてきました

「AIに会社のシステム運用を任せられる」。そんな期待が、いま急速に広がっています。

でも、本当に任せて大丈夫なのでしょうか。

IBMが作った新しいテストで、世界最強クラスのAIですら合格点に届かない現実が見えてきました。この記事では、その内容と私たちへの影響をやさしく解説します。

ITBench-AAとは?AIの「IT運用力」を測る新しい指標

ITBench-AAは、AIが企業のIT運用をどれだけうまくこなせるかを測るベンチマーク(AIの実力テスト)です。

作ったのは、コンピューター大手のIBMと、AI評価で有名なArtificial Analysisという会社です。2026年5月27日に公開されました。

これまでのAIテストは、文章を書く力や計算する力を測るものが中心でした。

でもITBench-AAは違います。「会社のシステムが止まったとき、AIは原因を見つけて直せるか」を試すのです。これは世界で初めての試みでした。

テストの中身はどんなもの?

テストには、59個のSRE課題が用意されています。SRE(サイト信頼性エンジニアリング)とは、システムを安定して動かし続ける専門の仕事のことです。

具体的には、Kubernetes(クバネティス。たくさんのアプリをまとめて動かす土台のしくみ)で起きた障害を扱います。

AIには、障害が起きたときの記録がまとめて渡されます。警告メッセージ、通信ログ、システムの状態などです。

AIはそれを読み解き、コマンドを打って調査します。そして「どこが原因か」を答えます。1つの課題につき最大100回まで操作でき、同じ課題を3回くり返して平均点を出します。

結果が衝撃的|全モデルが50%の壁を越えられない

結果は、AI業界に衝撃を与えました。

参加したどのAIモデルも、正答率50%に届かなかったのです。半分も正解できなかった、ということです。

主な成績を見てみましょう。

  • Claude Opus 4.7(最大努力モード): 47%(トップ)
  • GPT-5.5(xhigh): 46%
  • Qwen 3.7 Max: 42%
  • Gemini 3.5 Flash: 40%
  • Gemma 4 31B: 37%
  • Gemini 3.1 Pro Preview: 30%

トップのClaudeでも47%です。優秀とされる最新AIが、現場のIT運用では「赤点」に近い成績だったわけです。

「たくさん調べる」ほど点が下がる謎

面白いのは、調査回数と点数の関係です。

たくさん調べたAIほど高得点、とはなりませんでした。むしろ逆です。

GPT-5.5は平均31回の操作で46%を取りました。一方、Gemini 3.1 Proは平均83回も操作したのに30%でした。

これは、ITBench-AAの採点方法に理由があります。原因をすべて正しく当てないと、その課題は0点になります。

さらに、関係ない箇所まで「これも原因かも」と挙げると減点されます。あれもこれもと手を広げるAIは、自分でノイズを増やして点を落としていたのです。

なぜAIはIT運用が苦手なのか

では、なぜAIはIT運用でつまずくのでしょうか。

ひとつは、原因が一筋縄ではいかないからです。あるアプリの不調が、別のしくみの設定ミスから来ていることもあります。

人間のベテラン担当者は、経験から「ここが怪しい」と当たりをつけます。AIはまだ、その勘どころをつかみきれていません。

もうひとつは、「やめどき」の判断が難しいことです。

調べれば調べるほど情報は増えます。でも、どこで切り上げて結論を出すか。この見極めが、人間ほど上手にできないのです。

ITBench-AAの作り手は、これを「もっとも飽和していない(まだ伸びしろが大きい)テストのひとつ」と表現しています。AIエージェント(自分で考えて動くAI)の実用化には、まだ大きな壁が残っているということです。

他のベンチマークと何が違う?

AIのテストは、ほかにもたくさんあります。それぞれ得意分野が違います。

  • SWE-bench Verified: プログラムのバグ修正力を測る。最新AIは70%台と高めです
  • OSWorld: パソコン操作の力を測る。30%台後半とまだ低めです
  • τ-bench(タウベンチ): 接客などのやりとりを測る。こちらも50%未満です
  • ITBench-AA: 企業のIT運用・障害対応を測る。全モデルが50%未満です

プログラム修正のように「正解がはっきりした作業」は、AIの得意分野になりつつあります。

一方、IT運用のように「正解が複雑にからみ合う作業」は、まだAIには重荷です。ITBench-AAは、その難しさを数字で見せた点に価値があります。

安いAIが意外と健闘

コスト面でも面白い発見がありました。

1課題あたりの費用は、AIによって大きく違います。最高のClaude Opus 4.7は約5.38ドルかかりました。

ところが、安いGemma 4 31Bはわずか0.14ドルで37%を達成しました。値段は約38分の1なのに、トップとの差は10ポイントです。

「高いAIほど賢い」とは限らない。用途によっては、安いAIで十分かもしれない。そんな現実も見えてきます。

日本企業への影響|PoC止まりを抜けられるか

この話は、日本企業にとっても他人事ではありません。

日本の生成AI導入率は、2025年で43.4%まで伸びました。多くの会社が「試してみる」段階には入っています。

ところが、AIエージェントを本番業務で実際に動かせている会社は、わずか3.3%にとどまります。

多くの企業が、お試し(PoC=概念実証)の段階で止まっているのです。ITBench-AAの低い点数は、その理由をうらづけています。

たとえば、ある中堅企業の情報システム担当者を想像してみてください。深夜にシステム障害のアラートが鳴ります。原因を探し、復旧させるまで気が抜けません。

「この夜間対応をAIに任せたい」と考えるのは自然です。でも今のAIは、半分も正解できません。任せきりにはできない、というのが正直なところです。

とはいえ、悲観する話ばかりではありません。AIを「補佐役」として使う道はあります。

AIに一次調査をさせ、最後の判断は人間が下す。こうした人とAIの分担なら、今の実力でも十分に役立ちます。ITBench-AAは、その線引きを考えるヒントになります。

よくある質問(FAQ)

Q. ITBench-AAは誰でも使えますか?

A. はい。テストの一部はHugging Faceというサイトで公開されており、開発者は自由に試せます。ランキングもWeb上で確認できます。

Q. 50%未満ということは、AIは役に立たないのですか?

A. いいえ。あくまで「人の手を借りずに完全自動で障害対応する」のが難しいという意味です。人間の補佐としては今でも役立ちます。

Q. なぜKubernetesの障害を題材にしたのですか?

A. 多くの企業が使う代表的なしくみで、障害の種類も豊富だからです。現実のIT運用に近い課題を作りやすいのです。

Q. これから内容は増えますか?

A. はい。今後は財務管理(FinOps)やセキュリティ(CISO)の課題も追加される予定です。テストはどんどん広がっていきます。

まとめ

今回のポイントを振り返ります。

  • ITBench-AAは、AIのIT運用力を測る世界初のベンチマークです
  • IBMとArtificial Analysisが2026年5月27日に公開しました
  • 最強のClaude Opus 4.7でも47%。全モデルが50%未満でした
  • 調べすぎは減点され、「やめどき」の判断がAIの弱点です
  • 日本のAIエージェント本番運用率は3.3%。人とAIの分担がカギになります

AIに過度な期待をするのではなく、得意・不得意を正しく知ること。それが、これからのAI活用の第一歩になります。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です