- ITBench-AAは、AIが企業のIT運用をどれだけこなせるかを測る世界初のベンチマーク(性能テスト)です
- IBMとArtificial Analysisが2026年5月27日に公開しました
- 最強のClaude Opus 4.7でも47%。すべてのモデルが50%の壁を越えられませんでした
- 「たくさん調べるほど高得点」ではなく、調べすぎは逆に減点されます
- 日本企業でAIエージェントを本番運用できている割合はわずか3.3%。理想と現実のギャップが見えてきました
「AIに会社のシステム運用を任せられる」。そんな期待が、いま急速に広がっています。
でも、本当に任せて大丈夫なのでしょうか。
IBMが作った新しいテストで、世界最強クラスのAIですら合格点に届かない現実が見えてきました。この記事では、その内容と私たちへの影響をやさしく解説します。
ITBench-AAとは?AIの「IT運用力」を測る新しい指標
ITBench-AAは、AIが企業のIT運用をどれだけうまくこなせるかを測るベンチマーク(AIの実力テスト)です。
作ったのは、コンピューター大手のIBMと、AI評価で有名なArtificial Analysisという会社です。2026年5月27日に公開されました。
これまでのAIテストは、文章を書く力や計算する力を測るものが中心でした。
でもITBench-AAは違います。「会社のシステムが止まったとき、AIは原因を見つけて直せるか」を試すのです。これは世界で初めての試みでした。
テストの中身はどんなもの?
テストには、59個のSRE課題が用意されています。SRE(サイト信頼性エンジニアリング)とは、システムを安定して動かし続ける専門の仕事のことです。
具体的には、Kubernetes(クバネティス。たくさんのアプリをまとめて動かす土台のしくみ)で起きた障害を扱います。
AIには、障害が起きたときの記録がまとめて渡されます。警告メッセージ、通信ログ、システムの状態などです。
AIはそれを読み解き、コマンドを打って調査します。そして「どこが原因か」を答えます。1つの課題につき最大100回まで操作でき、同じ課題を3回くり返して平均点を出します。
結果が衝撃的|全モデルが50%の壁を越えられない
結果は、AI業界に衝撃を与えました。
参加したどのAIモデルも、正答率50%に届かなかったのです。半分も正解できなかった、ということです。
主な成績を見てみましょう。
- Claude Opus 4.7(最大努力モード): 47%(トップ)
- GPT-5.5(xhigh): 46%
- Qwen 3.7 Max: 42%
- Gemini 3.5 Flash: 40%
- Gemma 4 31B: 37%
- Gemini 3.1 Pro Preview: 30%
トップのClaudeでも47%です。優秀とされる最新AIが、現場のIT運用では「赤点」に近い成績だったわけです。
「たくさん調べる」ほど点が下がる謎
面白いのは、調査回数と点数の関係です。
たくさん調べたAIほど高得点、とはなりませんでした。むしろ逆です。
GPT-5.5は平均31回の操作で46%を取りました。一方、Gemini 3.1 Proは平均83回も操作したのに30%でした。
これは、ITBench-AAの採点方法に理由があります。原因をすべて正しく当てないと、その課題は0点になります。
さらに、関係ない箇所まで「これも原因かも」と挙げると減点されます。あれもこれもと手を広げるAIは、自分でノイズを増やして点を落としていたのです。
なぜAIはIT運用が苦手なのか
では、なぜAIはIT運用でつまずくのでしょうか。
ひとつは、原因が一筋縄ではいかないからです。あるアプリの不調が、別のしくみの設定ミスから来ていることもあります。
人間のベテラン担当者は、経験から「ここが怪しい」と当たりをつけます。AIはまだ、その勘どころをつかみきれていません。
もうひとつは、「やめどき」の判断が難しいことです。
調べれば調べるほど情報は増えます。でも、どこで切り上げて結論を出すか。この見極めが、人間ほど上手にできないのです。
ITBench-AAの作り手は、これを「もっとも飽和していない(まだ伸びしろが大きい)テストのひとつ」と表現しています。AIエージェント(自分で考えて動くAI)の実用化には、まだ大きな壁が残っているということです。
他のベンチマークと何が違う?
AIのテストは、ほかにもたくさんあります。それぞれ得意分野が違います。
- SWE-bench Verified: プログラムのバグ修正力を測る。最新AIは70%台と高めです
- OSWorld: パソコン操作の力を測る。30%台後半とまだ低めです
- τ-bench(タウベンチ): 接客などのやりとりを測る。こちらも50%未満です
- ITBench-AA: 企業のIT運用・障害対応を測る。全モデルが50%未満です
プログラム修正のように「正解がはっきりした作業」は、AIの得意分野になりつつあります。
一方、IT運用のように「正解が複雑にからみ合う作業」は、まだAIには重荷です。ITBench-AAは、その難しさを数字で見せた点に価値があります。
安いAIが意外と健闘
コスト面でも面白い発見がありました。
1課題あたりの費用は、AIによって大きく違います。最高のClaude Opus 4.7は約5.38ドルかかりました。
ところが、安いGemma 4 31Bはわずか0.14ドルで37%を達成しました。値段は約38分の1なのに、トップとの差は10ポイントです。
「高いAIほど賢い」とは限らない。用途によっては、安いAIで十分かもしれない。そんな現実も見えてきます。
日本企業への影響|PoC止まりを抜けられるか
この話は、日本企業にとっても他人事ではありません。
日本の生成AI導入率は、2025年で43.4%まで伸びました。多くの会社が「試してみる」段階には入っています。
ところが、AIエージェントを本番業務で実際に動かせている会社は、わずか3.3%にとどまります。
多くの企業が、お試し(PoC=概念実証)の段階で止まっているのです。ITBench-AAの低い点数は、その理由をうらづけています。
たとえば、ある中堅企業の情報システム担当者を想像してみてください。深夜にシステム障害のアラートが鳴ります。原因を探し、復旧させるまで気が抜けません。
「この夜間対応をAIに任せたい」と考えるのは自然です。でも今のAIは、半分も正解できません。任せきりにはできない、というのが正直なところです。
とはいえ、悲観する話ばかりではありません。AIを「補佐役」として使う道はあります。
AIに一次調査をさせ、最後の判断は人間が下す。こうした人とAIの分担なら、今の実力でも十分に役立ちます。ITBench-AAは、その線引きを考えるヒントになります。
よくある質問(FAQ)
Q. ITBench-AAは誰でも使えますか?
A. はい。テストの一部はHugging Faceというサイトで公開されており、開発者は自由に試せます。ランキングもWeb上で確認できます。
Q. 50%未満ということは、AIは役に立たないのですか?
A. いいえ。あくまで「人の手を借りずに完全自動で障害対応する」のが難しいという意味です。人間の補佐としては今でも役立ちます。
Q. なぜKubernetesの障害を題材にしたのですか?
A. 多くの企業が使う代表的なしくみで、障害の種類も豊富だからです。現実のIT運用に近い課題を作りやすいのです。
Q. これから内容は増えますか?
A. はい。今後は財務管理(FinOps)やセキュリティ(CISO)の課題も追加される予定です。テストはどんどん広がっていきます。
まとめ
今回のポイントを振り返ります。
- ITBench-AAは、AIのIT運用力を測る世界初のベンチマークです
- IBMとArtificial Analysisが2026年5月27日に公開しました
- 最強のClaude Opus 4.7でも47%。全モデルが50%未満でした
- 調べすぎは減点され、「やめどき」の判断がAIの弱点です
- 日本のAIエージェント本番運用率は3.3%。人とAIの分担がカギになります
AIに過度な期待をするのではなく、得意・不得意を正しく知ること。それが、これからのAI活用の第一歩になります。
参考文献
- ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks(Hugging Face / IBM Research)
- ITBench-AA Benchmark Leaderboard(Artificial Analysis)
- ITBench: An open source benchmarking framework for IT automation(GitHub)
- Developing AI Agents for IT Automation Tasks with ITBench(IBM Research)
- AIエージェントPoC→本番移行実録2026(GXO)

