AIエージェント16時間連続作業へ|倍化が4.7か月に

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • METRが2026年5月8日、Claude Mythosの自律タスク処理能力が「16時間以上」と発表
  • 英国AISIの測定では倍化サイクルが8カ月→4.7カ月へ半減
  • MythosとGPT-5.5が既存トレンドを上回るペースで進化
  • 2024年中盤のGPT-4oはわずか7分、約2年で約140倍に
  • 労働代替・サイバーセキュリティ・産業構造に現実的な影響が見え始める

「AIに任せても結局すぐに迷子になる」――そんな常識が、2026年5月に音を立てて崩れました。AI評価の最先端を行く2つの研究機関が、ほぼ同時に「成長スピードが予測曲線を超えた」と公式発表したのです。16時間連続で作業できるAIエージェント4.7カ月で性能が倍になる加速――数字が物語る現実を、わかりやすく整理します。

何が起きたのか|METRが「16時間以上」と発表

METRとはどんな組織か

まずはMETR(メートル)について。METRはModel Evaluation and Threat Researchの略で、米国に拠点を置く独立系のAI評価機関です。

OpenAI・Anthropic・Googleが新しいモデルをリリースする前に、第三者評価として性能や安全性を測ることが多く、業界では「AIモデルの健康診断クリニック」のような存在として知られています。

「16時間以上」という新記録

METRが2026年5月8日に追加した最新評価で、Anthropicの次世代モデルClaude Mythos Previewが、50%の確率で完遂できるタスクの長さ(50%タイムホライズン)が16時間以上に達したと報告されました。

METRが用意したタスクのうち、16時間以上かかるものは228タスク中わずか5つ。つまりMythosは、計測ツール自体の上限に達してしまった状態です。

95%信頼区間は8.5時間〜55時間と幅広く、METR自身も「上限に近すぎて正確な値は出せない」と注記しています。

比較データで見るスピード感

過去のモデルと並べると、進化のすごさが一目瞭然です。

  • 2024年中盤 GPT-4o:約7分
  • 2025年初頭 Claude Sonnet 3.7:約2時間
  • 2026年初頭 Claude Opus 4.6/GPT-5.2(high):約5〜6時間
  • 2026年5月 Claude Mythos Preview:16時間以上

わずか2年弱で、約140倍に伸びた計算になります。METRはこの間の倍化サイクルを約105日(年率1,000%超の成長)と算出しています。

AISIの測定が示す「加速」

倍化サイクルが8カ月→4.7カ月へ半減

もう1つの衝撃が、英国政府傘下のAI Security Institute(AISI)から届きました。AISIは独立行政機関として、フロンティアAIのサイバー能力を継続的に測定している組織です。

AISIが2026年5月14日に公開した最新レポートでは、サイバータスクで80%信頼度を達成するまでの「時間軸」が、4.7カ月ごとに倍化している事実が示されました。

2025年11月時点の推計は8カ月でしたから、わずか半年で倍化サイクルがほぼ半減。「年単位の進歩」だったAIエージェントの自律性が、「月単位の進歩」に切り替わったわけです。

Mythos Previewの具体的な解決率

AISIのテストでは、これまで難攻不落だった2つのサイバーレンジ(仮想攻防演習)で、Mythos Previewが初めて突破口を開きました。

  • 「The Last Ones」:10回中6回成功
  • 「Cooling Tower」:10回中3回成功(過去ゼロ)

OpenAIのGPT-5.5も負けておらず、「The Last Ones」で10回中3回成功。両モデルとも、AISIが描いていた予測曲線を上回るパフォーマンスを記録しました。

Sonnet 4.5の「16分」基準

少し前のモデルと比べてみましょう。2025年9月リリースのClaude Sonnet 4.5は、AISIの測定で「人間の専門家が16分で解くサイバータスクを80%の確率で完遂できる」水準でした。

それから1年経たないうちに、Mythos世代では数時間規模のタスクを成功率高く処理できるレベルへ。「16分→数時間」というジャンプは、エージェントの自律性が桁違いに上がっていることを意味します。

なぜ「倍化サイクル」が重要なのか

指数関数の怖さ

倍化サイクルが4.7カ月で続くと、1年後には能力が約4倍、2年後には約16倍になります。AIエージェントが16時間こなせる現状から計算すると、2027年5月には64時間(約2.5日)、2028年5月には256時間(約11日)の連続タスクをこなす計算です。

もちろん単純な外挿は危険ですが、「年→月」への変化は労働代替シナリオを根本から書き換えます。「あと5年は人間の仕事」と思っていた業務が、「あと半年」になる可能性が出てきたのです。

METR自身が抱える測定限界

興味深いのは、METR自身が「うちのベンチマークでは正確に測れなくなった」と認めている点です。228タスクのうち16時間超は5タスクのみ、しかも誤差幅が8.5〜55時間と非常に広い。

これは計測機の目盛りを振り切った状態。物差しを長くする工事が間に合わないほど、AIの背丈が一気に伸びてしまった――そんな例えがしっくりきます。

競合・比較|各社モデルの位置関係

GPT-4oからMythosまでの推移

OpenAI・Anthropic・Googleの主要モデルを並べると、今回の発表のインパクトがよくわかります。

  • OpenAI:GPT-4o(7分)→ GPT-5.2 high(5〜6時間)→ GPT-5.5(METR未公表、AISIで好成績)
  • Anthropic:Sonnet 3.7(2時間)→ Opus 4.6(5〜6時間)→ Mythos Preview(16時間以上)
  • Google:Gemini系列もMETR測定対象だが、5月時点の最新公表値は数時間レンジ

このうちMythosとGPT-5.5の2モデルが、既存の伸び率を一気に上振れさせたとAISIは指摘しています。

評価軸が変わりつつある

これまでAIの優劣は「SWE-Benchで何点」「MMLUで何%」のような短期テストで競われてきました。しかし2026年からは、「どれだけ長い仕事を中断せず最後までやり切れるか」という新しい物差しが主役になりつつあります。

METRやAISIのベンチマークが業界標準になれば、各社は短距離走者ではなくマラソンランナーとしての設計を競うことになります。

日本市場への影響

労働代替シナリオの再考

日本企業の経営者は、ここ数年「AI導入は5〜10年スパン」と腰を据えて検討してきました。今回のデータは、その時間軸を一気に縮めるシグナルです。

たとえばコールセンター、経理、法務アシスタント、社内ヘルプデスクなど、1日8時間以下のルーティン業務はすでに射程圏内に入りつつあります。Mythos以降のモデルが商用化されれば、半日〜1日かかる作業も任せられるようになります。

国内企業がすぐ準備すべき3つのこと

地に足のついた対応として、次の3点が現実的です。

  • 業務の棚卸し:「16時間連続で任せられるか」という新しい物差しで、自社業務を分解して再評価する
  • サイバー防御の前倒し:AISIが警鐘を鳴らした通り、攻撃側AIも同じスピードで進化中。脆弱性管理・侵入検知の更新サイクルを四半期単位に短縮
  • 人材スキルの再定義:AIに任せられない業務(顧客との関係構築・戦略判断・倫理判断)に人材を再配置する人事計画を策定

注意点|過度な期待への警告

当然ながら、リスクも見ておく必要があります。

  • METR・AISIの数字は限定的なベンチマークでの結果。実業務への直接適用は別途検証が必要
  • Mythos Previewは一般提供前。商用版で同じ性能が出る保証はない
  • 16時間と言っても、50%成功率。重要業務に投入する場合は人間の監督が引き続き必須
  • 倍化サイクルが今後も4.7カ月で続くとは限らない(学術界では停滞期入りを予測する声もある)
  • サイバー防御能力の高度化と同時並行で進めないと、攻撃側の進化に追いつけない

よくある質問(FAQ)

Q. METRとAISIの違いは何ですか?

A. METRは民間の独立評価機関、AISIは英国政府のAI規制機関です。

METRは主にソフトウェア工学・自動化・ML研究タスクを測定し、AISIは特にサイバーセキュリティ分野に焦点を当てます。両者ともAI企業から資金を直接受けない独立性を保つため、業界の信頼が厚い組織です。

Q. 「16時間連続で作業」とは具体的に何ができますか?

A. 例えば、複雑なソフトウェアのバグ修正、長文レポートの調査・執筆、複数システムをまたぐデータ分析などです。

METRが使う228タスクには、コードリファクタリング、機械学習モデルのファインチューニング、サイバー攻防演習などが含まれます。「人間の専門家が休憩なしで16時間取り組むレベル」の作業がイメージに近いです。

Q. Mythosは日本でいつ使えるようになりますか?

A. 一般公開は未発表ですが、Anthropicの慣例から数週間〜数カ月後と見られます。

過去のClaudeシリーズはPreview発表から約1〜3カ月で日本でも利用可能になっています。Claude.ai経由の通常アクセスとAPI経由の両方が、ほぼ同時に開放される見通しです。

Q. 自社業務にどう影響しますか?

A. 1日以下で完結するルーティン業務は2026年中に自動化対象になる可能性が高いです。

特に経理、カスタマーサポート、簡単なリサーチ業務、コードレビューなどは置き換わるスピードが加速します。逆に、顧客との信頼関係構築、複雑な交渉、創造的な戦略立案といった業務は引き続き人間の価値が高まります。

Q. サイバーセキュリティへの影響は?

A. 攻撃側と防御側の両方が同じ速度で進化するため、防御投資を前倒しする必要があります。

AISIは「攻撃の自動化が現実的脅威になった」と警告しています。脆弱性管理ツールの導入、SOC(セキュリティ運用センター)の自動化、従業員教育の更新を、これまで以上に頻繁に行うことが推奨されます。

Q. この成長は本当に続きますか?

A. 短期的には続く可能性が高いですが、長期的には不透明です。

AISIも「MythosとGPT-5.5の進歩が一時的なジャンプなのか、新たなトレンドなのかは判断できない」と慎重姿勢です。データセンター電力・GPU供給・学習データの枯渇など、物理的な制約が今後の成長カーブを左右します。

まとめ

  • METRが2026年5月8日、Claude Mythosが16時間以上の自律タスク処理能力と発表
  • 2024年中盤のGPT-4o(7分)から約140倍に伸びた計算
  • AISI測定では倍化サイクルが8カ月→4.7カ月へ半減、進歩が加速中
  • MythosとGPT-5.5は既存トレンドを上回るペースで進化
  • Sonnet 4.5の「16分」基準から、たった半年で数時間規模
  • METRのベンチマーク自体が計測限界に達した状態
  • 評価軸が「テスト点数」から「マラソン耐久性」に移行中
  • 日本企業は業務棚卸し・サイバー防御・人材再配置を急ぐ必要
  • 商用化前のPreview版である点・成功率50%という条件は要注意
  • 「年→月」への変化は労働市場と産業構造を書き換える可能性

次のアクション:自社の主要業務を「16時間連続で任せられるか」というレンズで棚卸ししてみましょう。Mythos正式版が出る前の今こそ、AIエージェント導入ロードマップを書き直すベストタイミングです。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です