- 「Claude Fable 5」の性能が落ちたと話題になったが、モデル自体は劣化していない
- あるベンチマークではデバッグ性能が86.2から25.9へと約7割も急落した
- 原因は7月1日に強化された「安全機能(分類器)」による誤検出だった
- 普通のコーディング依頼まで別のAIに振り分けられ、点数がゼロになっていた
- 検証サイトによって結果が割れており、正しい実力の見極めが難しくなっている
「最強と聞いて使い始めたAIが、急に物覚えが悪くなった気がする」。そんな声が2026年7月、開発者の間で一気に広がりました。
話題の中心はAnthropic(アンソロピック)の最上位AI「Claude Fable 5(クロード・フェイブル5)」です。あるテストでは性能が7割も落ちたと報告されました。ところが、その裏には意外な”犯人”がいたのです。
この記事では、性能低下騒動の真相と、私たち日本のユーザーへの影響を、やさしく整理します。
何が起きた?「性能が落ちた」騒動の概要
Claude Fable 5は、Anthropicが広く提供するAIの中で最も賢いモデルです。2026年6月9日に公開されました。
しかし公開直後、セキュリティ上の弱点(脆弱性)が報告されます。米政府の命令で、6月12日にいったん提供が止まりました。
そして7月1日、Anthropicは弱点をふさいだうえで提供を再開します。ところが再開後、「前より性能が落ちた」という体感の報告が相次いだのです。
特に不満が集まったのが、プログラムを書いたり直したりする「コーディング」の場面でした。開発者にとっては、まさに主力の使い方です。
検証データが示した衝撃の数字
体感だけでなく、数字でも大きな変化が確認されました。AI評価を手がけるBridgeMind AIが7月2日に公表した検証結果です。
デバッグ性能が「86.2 → 25.9」に急落
同社のコーディング用ベンチマーク「BridgeBench」で、いくつもの項目が大きく下がりました。
- デバッグ(不具合の修正):86.2 → 25.9
- リファクタリング(コードの整理):73.6 → 38.4
- ハルシネーション対策(でたらめ回答の防止):75.9 → 61.7
デバッグは約7割も下がった計算です。数字だけを見ると、たしかに「別物になった」と感じても不思議はありません。
ちなみにハルシネーションとは、AIがもっともらしいウソを自信満々に答えてしまう現象のことです。
実は性能は落ちていない?本当の犯人は「安全機能」
ここが今回の騒動で一番大事なポイントです。BridgeMind AIは、こう分析しています。
「モデルそのものの性能は落ちていない。安全機能の強化でスコアが下がっただけだ」。つまり、AIの頭脳が悪くなったわけではないのです。
カギは、再開時にアップデートされた「分類器(ぶんるいき)」という安全機能にあります。分類器とは、危ない使い方をリアルタイムで見張る監視役のAIです。
Claude Fable 5には3種類の分類器が働いています。サイバー攻撃、生物・化学、そしてAIの中身を盗む行為(モデル蒸留)に関する依頼を見つけると、処理を止める仕組みです。
問題は、この見張りが厳しくなりすぎたことでした。危険な依頼にあたると判断すると、質問はより安全な別のAI「Claude Opus 4.8」へ自動的に振り分けられます。
普通の依頼が「ゼロ点」になっていた
BridgeMindの検証では、12個のTypeScript(プログラミング言語)の課題のうち、Fable 5本体に届いたのはわずか3個でした。
残りの9個は、別モデルのOpus 4.8へ振り分けられ、テスト上はゼロ点と記録されました。無害なコーディングの依頼が、なぜか危険物あつかいされていたのです。
Anthropic自身も、再開時の説明でこれを認めています。「日常的なコーディングやデバッグの無害なリクエストを、誤検出する頻度が増えた」と明かしました。
なぜ安全機能をここまで強化したのか
「そこまで厳しくしなくても」と思うかもしれません。ですが、Anthropicには理由がありました。
6月に見つかった弱点は、悪用されると危険なものでした。Amazonが報告した特定の攻撃手法もあり、放置はできなかったのです。
新しい分類器は、その攻撃手法を99%超の割合でブロックできるようになりました。安全性は大きく高まったのです。
その代わりに、良性の依頼まで巻き込んで止めてしまう「誤検出」が増えました。安全と使いやすさは、シーソーのような関係にあるわけです。
検証結果はなぜ割れた?Arena.aiは「性能維持」
興味深いことに、すべての検証が「低下」で一致したわけではありません。
ユーザー評価サイトのArena.aiは、同じ7月2日に対照的な結果を出しました。テキストや画像の処理など、複数の項目でおおむねスコアを維持しているという報告です。
なぜ結果が割れたのでしょうか。答えは「何を測ったか」の違いにあります。
分類器がよく反応するのは、コーディングやサイバー関連の依頼です。だからコーディング中心のBridgeBenchでは点が急落しました。
一方で、文章や画像づくりの依頼は分類器に引っかかりにくいものです。そのためArenaでは性能が保たれて見えた、と考えられます。
この食い違いは、AIの実力を1つの数字で語る難しさを教えてくれます。使う場面によって、体感が大きく変わるのです。
日本のユーザー・企業への影響は?
この話は海の向こうの出来事ではありません。日本の開発現場にも関わってきます。
Claude Fable 5はAPIやAmazon Bedrock経由で日本からも使えます。料金は入力100万トークンあたり10ドル、出力は50ドルと高めの最上位クラスです。
ある日本のスタートアップの開発チームを想像してみてください。高い料金を払ってFable 5を選んだのに、依頼の多くが自動で別モデルに回されていたら、どうでしょう。「最強AIの実力」を十分に使えていない可能性があります。
とはいえ、振り分け先のOpus 4.8も十分に優秀なAIです。日常的な作業なら大きな支障は出にくいでしょう。
大切なのは、うまく動かないときに「AIが劣化した」と早合点しないことです。安全機能による誤検出かもしれない、という視点を持っておくと落ち着いて対処できます。
Anthropicは「今後も分類器を改良し、正しい依頼と悪用を見分けて誤検出を減らす」と表明しています。時間とともに使い勝手は改善に向かう見込みです。
よくある質問(FAQ)
Q1. Claude Fable 5は本当に頭が悪くなったのですか?
いいえ、モデル自体の賢さは落ちていないと分析されています。安全機能が依頼を別モデルに振り分けた結果、ベンチマークの点数だけが下がって見えたのが実態です。
Q2. なぜコーディングの依頼が止められるのですか?
分類器がサイバー攻撃などの危険な依頼を厳しく警戒しているためです。無害なコードでも、パターンが似ていると誤って危険と判断されることがあります。
Q3. 振り分け先の「Opus 4.8」は使えないAIですか?
そんなことはありません。Opus 4.8はAnthropicの主力級の高性能AIです。ただしFable 5とは得意分野や挙動が異なるため、期待した結果と差が出ることがあります。
Q4. この問題はいつ解決しますか?
正確な時期は示されていません。Anthropicは分類器の改良を続け、誤検出を段階的に減らすとしています。しばらくは改善を見守る形になりそうです。
まとめ
今回の「性能低下」騒動は、AIの評価がいかに難しいかを浮き彫りにしました。要点を振り返ります。
- Claude Fable 5のモデル自体の性能は落ちていない
- 7月1日に強化された安全機能(分類器)が誤検出を増やした
- 無害なコーディング依頼が別モデルに振り分けられ、点数が急落した
- 検証サイトによって結果が割れ、実力の判断が難しくなっている
- 安全性と使いやすさはトレードオフの関係にある
AIがうまく動かないときは、まず「安全機能の誤検出では?」と一度立ち止まって考えてみましょう。それが、最新AIと上手につき合う第一歩になります。

