AIにIQが付いた|GPT-5.5が136でAI界トップ

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • Ryan Shea氏が2026年5月12日に「AI IQ」(aiiq.org)を公開
  • 12種のベンチマークを統合して人間のIQスケールに変換
  • GPT-5.5が136でトップ、Opus 4.7とGemini 3.1 Proは132
  • IQ・EQ・実効コストの3軸で同時比較できる
  • 「単一スコアは誤解を招く」との批判も

「結局、いちばん賢いAIはどれ?」――この素朴な疑問に、人間のIQと同じスケールで答えようとする新サイトが登場しました。2026年5月12日に公開された「AI IQ」は、ARC-AGIやFrontierMathなど12種類のベンチマークを統合し、GPT-5.5やClaude Opus 4.7、Geminiといった主要モデルに1つの知能指数を割り振ります。本記事では、その仕組みからランキング、批判、日本企業がどう使うべきかまでをやさしく整理します。

AI IQとは|AIの賢さを人間と同じ物差しで測る

何が登場したのか

2026年5月12日、エンジニア兼起業家のRyan Shea氏が「AI IQ」というWebサイトを公開しました。

URLはaiiq.orgです。

サイトの目的はシンプルで、こうです。

「どのAIモデルがどれくらい賢いのかを、人間のIQと同じ数値で見える化する」

これまでAIモデルの性能は、テストごとに違うパーセンテージで発表されてきました。たとえば「ARC-AGI-2で85%」「SWE-benchで64%」のような形です。

ところが、テストの種類が多すぎて、一般の読者にはどれが賢いのか分かりませんでした。AI IQはこれを「IQ136」「IQ132」のような1つの数字に変換するわけです。

Ryan Shea氏はどんな人物か

Shea氏はプリンストン大学で機械工学を学んだエンジニアです。

ブロックチェーン基盤Stacksの共同創設者として知られ、OpenSeaやLattice、Anchorage、Mercuryといった有名スタートアップに早期投資してきました。

つまりAI業界のど真ん中にいる研究者ではなく、外側から「比較しやすい指標がない」と感じて自作した位置づけです。

これはAI IQの中立性につながると評価される一方で、「研究者コミュニティから独立した個人プロジェクト」である点を慎重に見る声もあります。

スコアランキング|GPT-5.5がIQ136で首位

トップ5モデルのIQスコア

2026年5月時点でAI IQが公開しているスコアは、以下の通りです。

  • GPT-5.5(OpenAI):IQ 136(首位)
  • Claude Opus 4.7(Anthropic):IQ 132
  • Gemini 3.1 Pro(Google):IQ 132
  • Grok 4.3(xAI):IQ 125
  • Kimi K2.6(Moonshot AI):IQ 122

下位にはQwen3.6(Alibaba)やDeepSeek V4も並んでいます。

IQ136はどれくらい賢いのか

人間の世界ではIQ100が平均です。

IQ130以上になると上位約2%にあたり、高IQ団体「メンサ」の入会基準を超えます。つまりAI IQの数値をそのまま受け取ると、主要AIはすでにメンサ会員クラスということになります。

ちなみにIQ140は上位0.4%、IQ160は超天才と呼ばれる領域です。GPT-5.5の136は、人間で言えば大学院レベルの研究者の上澄みに位置する数値です。

もちろん「人間のIQと同じ基準で測ったわけではない」点には注意が必要です。あくまで「AIテストの結果を人間IQスケールに換算した」値です。

仕組み|12ベンチマーク×4分野から1つの数字へ

4つの推論分野

AI IQは、12種類のベンチマークを4つの推論分野に分類します。

  • 抽象推論(ARC-AGI-1、ARC-AGI-2):パターン認識・図形推論の力
  • 数学的推論(FrontierMath、AIME、ProofBench):数式・証明問題の力
  • プログラミング推論(SWE-bench Verified、Terminal-Bench 2.0、SciCode):コードを書く力
  • 学術的推論(GPQA Diamond、Humanity’s Last Exam、CritPt):博士課程レベルの学術問題

4つの分野ごとに仮想IQを計算し、その平均値を最終的な総合IQとして出力します。

分野ごとの強み・弱みも個別に見られるため、「コーディングはGPT-5.5、数学はOpus 4.7」のような用途別の選び分けに使えるよう設計されています。

スコア変換の工夫

AI IQの計算には、いくつかの工夫があります。

  • 難易度キャリブレーション曲線:ベンチマークの難しさを揃えて、簡単なテストで点を稼げない仕組み
  • 上限圧縮:暗記やショートカットで高得点を取りやすいテストはスコア天井を下げる
  • 欠損データ補完:一部テストの結果がないモデルは、控えめに推定する

こうした補正により、「飽和したベンチマーク」が他のテストを覆い隠す問題を抑えこんでいます。

面白い新機能|EQ・コスト・3D比較

EQ(感情指数)も同時計測

AI IQには姉妹ページとしてEQ(感情指数)セクションも用意されています。

こちらは「EQ-Bench 3」や「Arena Elo(ユーザー投票)」を元に、AIの感情的な賢さを数値化します。

面白いのは、Anthropicのモデルに+200 Eloのバイアス補正をかけている点です。これは「審査員AIがClaudeをひいきする傾向」が知られているための調整で、Shea氏自身が透明性のために明記しています。

その結果、Opus 4.7はEQで首位に立ち、対照的にGPT-5.5・5.4はIQが高いがEQでは少し遅れるという構図が浮かびあがります。

「IQ vs 実効コスト」マップ

もう一つの目玉が「IQ vs 実効コスト」グラフです。

横軸にトークン料金×使用倍率(実効コスト)、縦軸にIQを取って各モデルを散布します。同じ「賢さ」を、いくらで買えるかが一目で分かる仕組みです。

このグラフを見ると、Geminiが同等IQ帯で低コスト傾向にあることが浮き彫りになっています。

OpenAIやAnthropicが性能で先行する一方、Googleは「賢さ÷値段」のコストパフォーマンスで差別化しているという業界構造が、数値で確認できる初めてのツールと言えます。

Frontier IQ Timeline

「Frontier IQ Timeline」は、各社のフラッグシップモデルのIQ推移を時系列で表示する機能です。

新モデルが出るたびに本当に賢くなっているのか、それとも頭打ちなのかを、グラフ1枚で確認できます。

2024年以降の推移を見ると、IQは1モデル世代ごとに約5〜8ポイントずつ上がっており、まだ天井にぶつかった様子はありません。

競合指標との比較|何が新しいのか

Artificial Analysis Intelligence Indexとの違い

AI比較サイトはすでにいくつか存在します。中でも有名なのがartificialanalysis.aiの「Intelligence Index」です。

両者の違いを整理してみましょう。

  • Artificial Analysis:10種類のベンチマークを独自に再評価して0〜100点で表示。GPT-5.5(xhigh)が60点で首位
  • AI IQ:12種類の公開ベンチマーク結果を引用してIQに変換。新規テストは実施しない

つまりArtificial Analysisは「自社で計測する」厳密派、AI IQは「他社の結果を翻訳する」分かりやすさ重視派と言えます。

どちらが正しいかではなく、用途で使い分ける時代になりつつあります。

TrackingAIのMensa IQとの違い

もう一つの競合がTrackingAIの「Mensa IQ」です。

こちらは抽象パターン認識のみを測る指標で、Grok-4.20 Expert ModeとGPT-5.4 ProがIQ145で同点というデータを公開しています。

AI IQが「総合知能」を狙うのに対し、Mensa IQは「特定分野の冴え」を測ります。サッカーの総合評価とドリブル評価のような関係です。

専門家の批判|単一スコアの危うさ

「ジャギーな能力」を1つにまとめる問題

米テック誌VentureBeatは、AI IQに対していくつかの批判を紹介しています。

もっとも本質的な指摘は「AIの能力はジャギー(ギザギザ)」というものです。AIは数学では博士課程レベルなのに、簡単な常識問題で間違える――そんな極端な得意不得意があります。

これを1つの数字に圧縮すると、「IQ132 = 全方位で132の賢さ」と誤解されかねません。

実際にはOpus 4.7はコーディング(SWE-bench Proで64.3%)でトップでも、ARC-AGI-2では75.8%でGPT-5.5(85%)に9ポイント差をつけられています。

方法論の透明性問題

もう一つの批判は計算の不透明性です。

「キャリブレーション曲線」や「上限圧縮」と書かれていても、具体的なパラメータがすべて公開されているわけではありません。

同じベンチマーク結果でも、変換の仕方によってIQは数ポイント動きます。研究者は「再現性が確認できないなら学術引用には使えない」と慎重姿勢です。

ベンチマーク飽和の問題

そもそも統合元のベンチマーク自体が、すでに飽和に近づいているものがあります。

たとえばMMLUやSWE-bench Verifiedは、上位モデルが90%超を出すことが当たり前になり、「ものさし」として機能しにくくなっています。

飽和したテストを混ぜたままIQを計算すると、頂点付近のモデル同士の差がうまく表現できないリスクがあります。

日本市場への影響|どう活用すべきか

国内企業に役立つ3つの使い方

日本企業がAI IQをどう活用できるか、現実的な使い道は次の3つです。

  • 用途別モデル選定の初期スクリーニング:「コードを書かせるならIQが高いGPT-5.5系」「カスタマー対応ならEQが高いOpus 4.7系」のような大まかな当たりをつける
  • 経営層への説明資料:「ARC-AGIで85%、SWE-benchで64%」より「IQ136でメンサ級」のほうが非エンジニアに伝わりやすい
  • コスト効率の見える化:「IQ vs 実効コスト」グラフを使えば、賢さあたりの料金を直感的に比較できる

日本語性能との関係に注意

気をつけたいのは、AI IQの元になっているベンチマークはほぼすべて英語という点です。

日本語タスクではトークン消費効率が悪く、英語タスクの1.5〜1.7倍のコストがかかることが知られています。

「IQ136だから日本語でも最強」と思い込むのは危険で、日本語ベンチマーク(JMMLUJGLUEなど)を別途確認すべきです。

経営判断に持ち込むときの注意

稟議書や提案資料にAI IQを引用するときは、必ず以下を併記しましょう。

  • 計算日:AI IQはモデル更新で頻繁に変動します
  • 使用ベンチマーク:12種類すべてが含まれているか
  • 日本語性能の別評価:JMMLUや実務テスト結果
  • EQスコア:感情・対人タスクの場合は必須

「IQ132なのでこのモデルにします」だけでは、あとで現場が困る判断になりがちです。

よくある質問(FAQ)

Q. AI IQは無料で見られますか?

A. はい、誰でも無料で閲覧できます。

aiiq.orgにアクセスすると、ランキング、IQ vs コストグラフ、Frontier IQ Timelineなどすべての機能が利用できます。ログイン不要で、データは定期的に更新されます。EQページはaiiq.org/eqで別途公開されています。

Q. AIのIQ136は本当に人間の天才と同じ意味ですか?

A. 同じ意味ではありません。

AI IQは「AIベンチマークの結果を人間のIQスケールに換算したもの」で、ウェクスラーやスタンフォード・ビネーといった人間用のIQテストを直接受けた結果ではありません。比較しやすくするための翻訳値と考えるのが正確です。AIが136点取れるからといって、人間社会の知的問題をすべて解けるわけではありません。

Q. なぜGPT-5.5が首位なのですか?

A. 抽象推論ベンチマークで圧倒的に強いためです。

GPT-5.5はARC-AGI-2で85.0%を記録し、Opus 4.7(75.8%)やGemini 3.1 Pro(77.1%)を大きく引き離しています。AI IQは抽象推論を4分野の1つとして同じ重みでカウントするため、ここで突き抜けたGPTが総合首位に立ちました。逆にコーディングに重みを置けばOpus 4.7が首位になる構造です。

Q. 日本のAI(rinnaやELYZA等)はランクインしますか?

A. 現時点では含まれていません。

AI IQは英語ベンチマークを中心に集計しているため、日本語特化モデルや国産フロンティアモデルは評価対象外です。今後Stockmark LLMやTsuzumi、CyberAgentのLLMといった国産モデルが入る可能性はありますが、現状は世界共通の英語フロンティア比較に特化していると理解しましょう。

Q. 企業の生成AI導入で使ってよいですか?

A. 初期検討の参考にはなりますが、最終判断には不十分です。

AI IQは大まかな比較に便利ですが、自社業務での実際のパフォーマンス(日本語応答、専門ドメイン、長文処理など)は別途検証が必要です。「IQが高いから採用」ではなく、「IQで2〜3モデルに絞り込み→自社データでPoC」という流れが現実的です。

Q. データはどのくらいの頻度で更新されますか?

A. 新モデル登場のたびに随時更新されます。

Shea氏は個人プロジェクトとしてaiiq.orgを運営しており、明確な定期更新サイクルは公表されていません。OpenAI・Anthropic・Googleの主要モデルが新バージョンを出したタイミングで反映される傾向にあるため、月1回程度のチェックがおすすめです。重要な経営判断に使う場合は、当日の最新値を必ず確認しましょう。

まとめ

  • Ryan Shea氏が2026年5月12日に「AI IQ」(aiiq.org)を公開
  • 12種類のベンチマークを人間のIQスケールに変換した新指標
  • GPT-5.5:136、Opus 4.7:132、Gemini 3.1 Pro:132、Grok 4.3:125
  • 4分野(抽象・数学・プログラミング・学術)の平均値で総合IQを算出
  • EQページではOpus 4.7が首位、IQ vs コストマップではGeminiが優位
  • Artificial Analysis IndexやMensa IQと並ぶ新比較指標として登場
  • 批判:「ジャギーな能力を単一値に圧縮する危険」「計算式の不透明性」「ベンチマーク飽和」
  • 日本企業は初期スクリーニング経営層説明に使い、最終判断は自社PoCで
  • 日本語性能はAI IQに含まれないため、JMMLU等で別途確認が必要
  • 更新頻度は不定期。重要判断時は当日の最新値を確認

次のアクション:自社で使っているAIの最新IQスコアをaiiq.orgで確認し、「IQが高い用途」と「EQが必要な用途」でモデルを使い分けられないか、今週中に検討してみましょう。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です