- Anthropicが2026年5月28日にフラッグシップ「Claude Opus 4.8」を公開
- コーディングの主要ベンチで前世代から最大5点上昇、数学では27点アップ
- 根拠のない主張を出す確率が前世代の4分の1に低下、「正直なAI」へ前進
- Claude Codeに「Dynamic Workflows」が登場し、最大1000の子エージェントを並列実行
- 料金は据え置きで$5/$25、高速モードは前モデル比で3分の1の価格
「AIが平気でウソをつく」「途中で勝手にやめる」という不満を持ったことはありませんか。Anthropicが2026年5月28日に発表したClaude Opus 4.8は、その2つの悩みに正面から挑んだフラッグシップモデルです。本記事では何が変わったのか、料金や日本のユーザーへの影響まで具体的な数字でやさしく整理します。
Claude Opus 4.8とは何か
Claude Opus 4.8は、AI企業Anthropic(アンソロピック)の最上位モデルです。
2026年5月28日に発表され、claude.aiやClaude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryから即日利用できるようになりました。
位置づけは「前世代Opus 4.7のアップグレード」。新世代の大型刷新ではなく、コーディング・推論・誠実さを着実に底上げしたバージョンです。
同社は「控えめだが目に見える改善」と表現しています。派手な機能追加よりも、AIエージェントを業務で使う企業が一番気にする「信頼性」を磨き込んだ印象です。
コーディングと推論で前世代を上回る
性能面でいちばん注目されているのが、コーディング系ベンチマークの伸びです。
SWE-bench Pro(実際のソフトウェア課題を解く難しいテスト)は64.3%から69.2%へ約5ポイント上昇しました。
同じ系列のSWE-bench Verifiedは87.6%から88.6%。Verifiedはすでに天井に近いので、より難しいProの伸びが本当の進歩を表しています。
数学の難問テストUSAMO 2026は69.3%から96.7%へ27ポイント急上昇。100万トークンの長い文章を扱うGraphWalksも40.3%から68.1%に跳ね上がりました。
つまり「コードを書く力」「数学的に考える力」「長い文書を覚えていられる力」がそろって底上げされたわけです。法務エージェントの総合ベンチで初めて10%の合格ラインを超えたのも、Anthropicが力を入れた成果として強調されています。
「誠実さ」の進化:ウソをつかないAIへ
Opus 4.8の最大の目玉は、性能よりも「誠実さ」の指標かもしれません。
Anthropicが内部テストで使う「根拠なく結果を報告する」評価では、Opus 4.8が史上初めて0%を達成しました。前世代Opus 4.7は同じテストで25%が誤答だったので、明確に進歩しています。
コードに含まれる欠陥を黙って見逃す確率も、前世代の約4分の1に下がりました。重要な事象をユーザーに伝え忘れるのは全体の3.7%だけです。
システムカードでは「過信」の指標が前世代比で10倍以上改善したと報告されています。AIが自信満々で間違った答えを返す問題が大幅に減ったということです。
これは経理部門に配属された新人を想像するとわかりやすいかもしれません。前任者は雰囲気で「大丈夫です」と言うタイプ、Opus 4.8は「ここは確認が必要です」と正直に申告するタイプ。エージェントとして長時間放置する場合、後者の方が事故が減ります。
Dynamic Workflows:1000台規模の子エージェント
同時に発表されたDynamic Workflows(ダイナミック・ワークフロー)も大きなニュースです。
これはClaude Codeの新機能で、1回の作業の中でAIが計画を立て、自動的にたくさんの子エージェントを並列で動かす仕組みです。
制限は「同時に16個、合計で最大1000個」。一人で抱えきれない大きな改修を、AI自身がチームに分割して並行処理してくれます。
従来のClaude Codeは1つのチャットで考えていたので、context(記憶できる範囲)の限界がボトルネックでした。Dynamic Workflowsはタスクを小さく切り分けて子エージェントに渡し、結果をまとめ直すので、大規模な作業でも息切れしません。
研究プレビュー段階ですが、Max・Team・Enterpriseプランで利用でき、MaxとTeamではデフォルトで有効です。
価格と提供形態:本体は据え置き、高速モードは3分の1
気になる料金は前世代Opus 4.7と完全に同額です。
通常モードは入力トークン100万あたり5ドル、出力トークン100万あたり25ドル。性能が上がっても値段が変わらないのは大きなメリットです。
もう一つの目玉が「高速モード(fast mode)」の値下げ。応答速度を2.5倍に上げる代わりに入力10ドル、出力50ドル/100万トークンで、前モデルの同等機能と比べて約3分の1の価格になりました。
提供チャネルはclaude.ai、API(モデル名はclaude-opus-4-8)、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryと幅広く、即日利用可能です。Claude Codeでも標準モデルとして使えます。
競合比較:GPT-5.5・Gemini 3.1 Proとの違い
同じ時期に出ているフロンティアモデルと比べてみましょう。
エージェント型コーディングのSWE-Bench ProではOpus 4.8が69.2%、OpenAIのGPT-5.5が58.6%、Google DeepMindのGemini 3.1 Proが54.2%。コードを書かせるなら現状はOpus 4.8が頭一つ抜けています。
知識業務の総合指標GDPval-AAでもOpus 4.8がGPT-5.5を約121 ELOポイント引き離してトップ。一方、ターミナル上でコマンドを操るTerminal-Bench 2.1ではGPT-5.5が78.2%でOpus 4.8(74.6%)を上回るなど、用途によって得意分野は分かれます。
価格面でもOpus 4.8は出力25ドル/100万トークンで、GPT-5.5の出力30ドルより安価です。安く、長く、正直に働かせたいならOpus 4.8、ターミナル作業中心ならGPT-5.5、コスパ重視ならGemini系という棲み分けがはっきりしました。
日本のユーザーと企業への影響
日本のユーザーは、claude.aiの有料プラン(ProやMax)から日本語のままOpus 4.8を選べます。アプリやウェブで「Opus 4.8」と表示されているのを確認してから使う形です。
企業視点で大きいのは、日本のSI御三家がClaudeを大規模採用済みという文脈です。先週公開された通り、富士通・NTTデータ・NRIなど大手SIerでClaudeを使う開発者が42万人規模に達しています。今回の精度向上はそのまま日本の現場の生産性に響きます。
具体的にメリットが大きい職種を3つ挙げます。
- 業務システム開発者:SWE-Bench Pro 5ポイント上昇は、レガシーコード保守やリファクタリングで体感差が出ます
- 金融・法務:法務エージェントベンチで初の10%突破。契約書の読み込みや矛盾検出を任せやすくなります
- 研究・データ分析:USAMO 27ポイント上昇と100万トークン長文対応で、論文や仕様書を丸ごと読ませる用途に強いです
誠実さの強化は特に重要です。エージェントを長時間まわす業務(夜間バッチ的なAI処理、長期リサーチ)では、「途中で勝手に成功宣言される」リスクが小さいほど運用が楽になります。
よくある質問(FAQ)
Q1. Claude Opus 4.7との違いは何ですか?
A. コーディングと推論性能の上昇、誤情報・過信の大幅低減、Dynamic Workflowsの追加、高速モードの値下げが主な違いです。料金は据え置きです。
Q2. 既存のAPIユーザーは何かする必要がありますか?
A. モデル名をclaude-opus-4-8に切り替えるだけで利用できます。料金や呼び出し方式は4.7と同じです。
Q3. ChatGPTやGeminiから乗り換えるべきですか?
A. 用途次第です。長文・エージェント・コーディング中心ならOpus 4.8が有利、ターミナル操作中心ならGPT-5.5、応答速度とコスト最優先ならGemini 3.5 Flashが向いています。
Q4. Dynamic Workflowsは個人でも使えますか?
A. claude.aiのMaxプラン以上で利用可能です。研究プレビュー段階ですが、Max・Teamではデフォルトでオンになっています。
Q5. 「誠実さ」って具体的にどう確かめるんですか?
A. 「ここは不確かです」「この結果はもう一度確認が必要です」とAI自身が申告する頻度です。Anthropicの内部テストでは前世代より4倍多く不確実性を申告するようになりました。
まとめ
Claude Opus 4.8の要点をおさらいします。
- 2026年5月28日リリース、claude.aiとAPIから即日利用可能
- SWE-bench Pro 5点上昇、数学・長文・法務でも明確な改善
- 根拠なき主張ゼロ達成、コード欠陥の見逃しが4分の1に
- Dynamic Workflowsで最大1000の子エージェントを並列実行
- 本体料金は据え置き、高速モードは3分の1の価格に値下げ
まずはclaude.aiで「Opus 4.8」を選び、いつも使っている業務プロンプトを投げて精度の差を体感してみるのがおすすめです。

