- 最新AIに心理学の有名テスト「ストループ課題」をやらせたら、課題が長くなるほど成績が急落しました
- GPT-4oは5単語で91%だった正解率が、40単語では15%まで落ち込みました
- GPT-5やClaude Opus 4.1など最新モデルでも、ひっかけ問題ではほぼ0%になりました
- 原因は「読む力」が強すぎて、それを抑えて「色を答える」ことに集中できないことです
- 長い文章を正確に処理させたい医療・法律・金融などの現場で、注意が必要だとわかります
AIはもう人間より賢い。そう思っていませんか?ところが、小学校の心理テストみたいな簡単な問題で、最新AIがボロボロに崩れることがわかりました。2026年6月に発表された研究では、問題が少し長くなっただけで、トップAIの正解率が91%から15%まで落ちたのです。この記事を読むと、AIの意外な弱点と、わたしたちが気をつけるべきことがわかります。
何が起きたの? AIが「色当てクイズ」で大失敗
2026年6月10日、学術誌「PNAS Nexus」に1本の論文が載りました。
研究チームは、最新のAIに「ストループ課題」という心理テストを出しました。
結果はおどろくものでした。問題が長くなるほど、AIの成績がガクンと落ちたのです。
短い問題なら、AIはほぼ完璧に答えます。でも問題が長くなると、まるで集中力が切れたように間違いが増えました。
この研究を率いたのは、スケツ・パテル氏(Suketu Patel)たちのチームです。
そもそも「ストループ課題」ってなに?
ストループ課題は、100年近く前から使われている有名な心理テストです。
ルールはとてもシンプルです。「色のついた文字を見て、書いてある言葉ではなく、文字の色を答える」だけです。
たとえば「あか」という文字が青色のインクで書かれているとします。このとき正解は「青」です。「あか」と読んではいけません。
やってみると、これが意外とむずかしいのです。わたしたちの脳は、文字を見ると自動的に「読もう」としてしまうからです。
その「読みたい気持ち」をグッと抑えて、色だけに集中する。これがストループ課題の難しさです。
数字で見る「精度の崩壊」
研究では、5単語・10単語・20単語・40単語と、問題の長さを変えてテストしました。
すると、長さが増えるごとに成績が落ちていきました。具体的な数字を見てみましょう。
GPT-4oの場合:
- 5単語のとき → 正解率91%(ほぼ完璧)
- 10単語のとき → 正解率57%(半分くらい)
- 40単語のとき → 正解率15%(ほぼ崩壊)
Claude 3.5 Sonnetの場合:
- 20単語までは安定して正解できた
- 40単語になると正解率24%まで急落した
たった数十単語のリストで、AIの正解率が9割から1〜2割まで落ちる。これはかなり衝撃的な結果です。
最新モデルでも「ほぼ0%」に
「それは古いAIだからでは?」と思うかもしれません。
ところが、研究チームは最新モデルもテストしました。GPT-5、Claude Opus 4.1、Gemini 2.5です。
そして「色と意味が合っている単語」と「合っていない単語」をまぜたリストを出しました。
結果、ひっかけ(色と意味が合っていない単語)の部分では、最新モデルでも正解率がほぼ0%まで落ちたのです。
つまり、これは一部の古いAIだけの問題ではありません。今のAI全体に共通する弱点だとわかりました。
なぜAIは失敗するの? 原因は「クセが強すぎる」こと
では、なぜAIはこんな簡単な問題でつまずくのでしょうか。
カギは、AIの「育ち方」にあります。
AIは、インターネット上の膨大な文章を読んで学習しています。だから「文字を読む」力はものすごく強いのです。
一方で、「色を答える」ような作業はあまり練習していません。
研究チームはこう指摘します。「AIは色を答えるより、文字を読むことのほうが得意になっている」と。
人間にできて、AIにできないこと
実は、この点だけなら人間も同じです。人間も文字を見るとつい読んでしまいます。
でも人間には、強力な武器があります。それは「自分でブレーキをかける力」です。
長いリストでも、人間は「今は読まない、色だけ見る」と意識的に切りかえられます。これを専門用語で「実行制御(じっこうせいぎょ)」と呼びます。意識的に注意をコントロールする脳の働きのことです。
研究チームは、今のAIにはこのブレーキ機能がないと説明します。論文ではこう述べています。「AIにはこの持続的なトップダウンの集中力が完全に欠けている」と。
言いかえると、AIは強い「読みたいクセ」を自分で止められないのです。問題が長くなるほど、クセに引きずられて崩れてしまいます。
これって「文脈が長いと弱る」問題とつながっている
このストループ課題の結果は、AI業界で前から知られていた弱点とも重なります。
それは「長い文章になると注意が散ってしまう」という問題です。
AIは、一度に読める文章の量(コンテキストウィンドウ)が決まっています。そして、長い文章では真ん中あたりの情報を見落としやすいことがわかっています。
この現象は「ロスト・イン・ザ・ミドル(中盤で迷子になる)」とも呼ばれます。
ある調査では、2025年の企業向けAIの失敗のうち、約65%が「途中で文脈を見失う」ことが原因だったと報告されています。
ストループ課題の失敗も、根っこは同じかもしれません。情報が増えると、AIの注意が薄まってしまうのです。
他のAIや人間とどう違う? 比較してみた
今回の弱点を、わかりやすく整理してみましょう。
人間の場合:
- 文字を読むクセはあるが、意識的に抑えられる
- リストが長くても集中を保てる
- 「今は色だけ見る」と切りかえができる
今のAI(GPT・Claude・Geminiなど)の場合:
- 短い問題なら人間以上に正確
- 長くなると一気に崩れる
- 自分の「読みたいクセ」を止められない
注目したいのは、モデルによって崩れ方が少し違う点です。
たとえばClaude 3.5 Sonnetは20単語まで粘りました。GPT-4oは10単語の時点ですでに大きく落ちています。
つまり、AIごとに「集中力の持久力」に差があるということです。とはいえ、十分に長くすればどのモデルも崩れる点は共通でした。
日本のわたしたちに、どんな関係がある?
「海外の研究でしょ?」と感じるかもしれません。でも、これは日本のわたしたちにも深く関わる話です。
今、日本でも多くの会社がAIを仕事に取り入れています。GPTやClaude、Geminiは日本語でも普通に使えます。
だからこそ、AIの弱点を知っておくことが大切です。具体的なシーンで考えてみましょう。
シーン1:法律事務所の確認作業。ある事務所が、100ページの契約書をAIに読ませてチェックさせるとします。短い部分なら正確でも、長い文書の真ん中で重要な条文を見落とすかもしれません。最後は人間の目で確認する必要があります。
シーン2:病院での書類整理。看護師さんが大量の問診メモをAIに要約させるとします。情報量が多いと、肝心な持病の記載を取りこぼす危険があります。命に関わる場面では、AI任せは禁物です。
シーン3:経理担当者の月末処理。ある中小企業の経理担当者が、数百件の請求書データをAIに分類させるとします。件数が増えるほど、まぎらわしい項目で間違いが起きやすくなります。チェック体制が欠かせません。
どのシーンでも共通するのは、「長く・複雑になるほどAIは間違えやすい」という点です。
AIは便利な道具です。でも、最後の確認は人間がする。この使い方が、今の日本の現場でも安心につながります。
これからAIはどう良くなる?
では、この弱点は直らないのでしょうか。研究チームはヒントを示しています。
それは、人間の脳のような「実行制御のしくみ」をAIに組みこむことです。
論文では「生物の注意に近い実行制御のしくみを取り入れることが、本物の汎用人工知能(AGI/人間のように何でもこなせるAI)の実現に欠かせない」と結論づけています。
つまり、ただ賢く文章を作るだけでは足りないのです。「自分の注意をコントロールする力」が、次のAIには求められます。
2026年は、AIの「文脈の長さ」がこれ以上は急には伸びないとも予想されています。そのため、賢く情報を圧縮したり、整理したりする工夫が重視されています。
大きな窓を作るより、限られた注意を上手に使う。これが当面のAI開発の方向性になりそうです。
よくある質問(FAQ)
Q1. ストループ課題って、そんなに難しいテストなのですか?
人間にとってもクセを抑える必要がある、意外と手ごわいテストです。でも人間は集中すればこなせます。AIは長くなると崩れる点が大きな違いです。
Q2. 最新のAIなら、もうこの問題は解決しているのでは?
いいえ。GPT-5やClaude Opus 4.1、Gemini 2.5でも、ひっかけ問題ではほぼ0%まで落ちました。最新モデルでも残る弱点です。
Q3. これはAIが「バカ」だということですか?
そうではありません。AIは短い問題ならとても正確です。ただ、長い情報の中で「やるべきこと」に集中し続けるのが苦手、ということです。
Q4. ふだんChatGPTなどを使うとき、何に気をつければいいですか?
長い文章や大量のデータをまとめて投げるときは要注意です。できれば短く区切って渡し、結果は必ず自分の目で確認しましょう。
Q5. AIに長文を読ませるとき、間違いを減らすコツはありますか?
情報を小分けにして渡すのが効果的です。一度に大量を渡すより、重要な部分を分けて質問するほうが、見落としを減らせます。
まとめ
今回の研究でわかったことを、最後に振り返りましょう。
- 最新AIは心理テスト「ストループ課題」で、問題が長くなると成績が急落した
- GPT-4oは91%から15%へ、Claude 3.5 Sonnetも40単語で24%まで落ちた
- GPT-5やGemini 2.5など最新モデルでも、ひっかけ問題ではほぼ0%だった
- 原因は「読むクセ」を自分で抑えられないこと(実行制御の不足)
- 長く複雑な作業ほどAIは間違えやすいので、人間の確認が欠かせない
AIはすごい道具ですが、万能ではありません。長い文章や大量のデータを扱うときは、まず短く区切って渡し、最後は必ず自分の目でチェックすることから始めてみましょう。
参考文献
- A classic brain test exposed AI’s biggest weakness(ScienceDaily, 2026年6月10日)
- Stroop Test Exposes Inherent LLM Flaw(Neuroscience News)
- AI fails classic attention test, with longer word lists triggering dramatic accuracy collapse(TechXplore)
- AI fails classic attention test(EurekAlert!)
- LLM Context Window Limitations in 2026(Atlan)

