- ChatGPTやClaudeに「1〜10で好きな数字を選んで」と聞くと、多くのAIが「7」と答える不思議
- この「みんな同じ答えになる」現象は画一化(グループシンク)と呼ばれ、AI研究の大きなテーマに
- 豪州スタートアップSpringboardsが、多様な答えを出す新AI「Flint(フリント)」を発表
- FlintはNovelty Benchで7点を獲得。ほかのAIの平均2.88点を大きく上回った
- 広告やアイデア出しの現場で、AIの「金太郎あめ」問題を解決する切り札になるか
ChatGPTに「1から10の中で好きな数字を1つ選んで」と聞いたことはありますか。実は多くの人が試すと、AIは決まって「7」と答えます。ClaudeでもGeminiでも同じです。この記事では、なぜAIの答えはこんなに似てしまうのか、そしてその常識を壊そうとする新しいAI「Flint(フリント)」の正体を、やさしく解説します。
「AIはなぜ7を選ぶ?」から始まった問題
まずは有名な実験から見てみましょう。
「1から10の中で数字を選んで」とAIに何度も聞きます。
するとChatGPT、Claude、Geminiのどれもが、ほぼ毎回「7」と答えます。
人間ならバラバラの数字を言うはずです。でもAIは違います。まるで全員が示し合わせたように、同じ答えを返してくるのです。
この「みんな同じになってしまう」現象には名前があります。グループシンク(集団思考)、日本語では「画一化」と呼ばれます。
米国のマサチューセッツ工科大学が発行する技術誌MITテクノロジーレビューは、2026年7月2日、この問題に挑む企業を特集しました。記事のタイトルは「チャットボットを『ありきたり』から遠ざける会社」でした。
「時間は川のようだ」ばかり書くAIたち
数字だけの話ではありません。もっと深刻な研究があります。
1250個の答えがほぼ同じだった
AI分野で最も権威ある学会のひとつ「NeurIPS(ニューリップス)」で、2025年11月に最優秀論文賞を受賞した研究があります。
タイトルは「Artificial Hivemind(人工の集合意識)」。米ワシントン大学の研究チームによるものです。
チームは25種類のAIに、それぞれ50回ずつ「時間についてのたとえ話を書いて」と頼みました。合計1250個の答えが集まりました。
結果はどうだったでしょうか。
ほとんどの答えが「時間は川のようだ」か「時間は織り手のようだ」の、どちらかに集中していたのです。
70以上のAIで同じ傾向
研究チームはさらに調査を広げました。
「Infinity-Chat」という大きな試験セットを作り、2万6000件の質問を用意しました。そこに3万1000件もの人間の評価を組み合わせます。
そして70を超えるAIを調べた結果、どのAIも似たり寄ったりの答えに偏ることがわかりました。
研究チームはこれを「人工の集合意識(ハイブマインド)」と名付けました。AIたちが、まるでひとつの脳を共有しているかのように見えたからです。
なぜAIの答えは似てしまうのか
そもそも、どうしてこんなことが起きるのでしょうか。
原因のひとつは、AIの訓練方法にあります。
いまのAIは、人間の好みを教え込む「RLHF(人間のフィードバックによる強化学習)」という方法で仕上げられます。たくさんの人に「こっちの答えの方が良い」と選んでもらい、その好みを学ぶのです。
ここに落とし穴があります。
多くの人が「無難で読みやすい答え」を好むと、AIは徐々に「みんなが好みそうな平均的な答え」ばかりを出すように偏っていきます。これを専門用語で「モード崩壊」と呼びます。
面白い個性的な答えは、平均から外れているため選ばれにくくなります。こうして角の取れた、丸くて似た答えだけが残っていくのです。
技術的な作業、たとえばプログラムを書いたり調べ物をしたりするなら、これでも問題ありません。むしろ安定していて便利です。
困るのは、アイデア出しや創作の場面です。全員が同じ発想しか出せないなら、AIに相談する意味が薄れてしまいます。
新モデル「Flint」はどう解決するのか
この問題に正面から挑んだのが、オーストラリアのスタートアップ「Springboards(スプリングボーズ)」です。
同社は2026年、多様な答えを出すことに特化した新AI「Flint(フリント)」を発表しました。アルファ版(試験公開版)は同年4月に登場しています。
「わざと変な答え」を狙った場所だけに入れる
Flintの工夫は、とても巧みです。
AIの答えに多様性を持たせる一番簡単な方法は、「温度(temperature)」という設定を上げることです。これは答えのランダムさを調整するツマミのようなものです。
でも、これを上げすぎると問題が起きます。
文章がめちゃくちゃになり、意味の通らない答えになってしまうのです。
Springboardsのチームは、別の道を選びました。
「ヨーロッパでどこに行くべき?」という質問を考えてみましょう。この文で自由度が高いのは「行き先」の部分だけです。「べき?」の部分をランダムにしても意味がありません。
そこでFlintは、答えの中で「変化させても良い場所」だけを見つけ出し、そこにだけ意外性を注入するように訓練されました。文章の骨格は保ちつつ、選択肢の部分だけを多彩にするのです。
土台は中国生まれのオープンAI
Flintはゼロから作られたわけではありません。
土台には、中国アリババが公開したオープンソースAI「Qwen3(クウェン3)」が使われています。一から巨大AIを作るには莫大な費用がかかるため、既存の優れたAIを改良する道を選んだのです。
開発を率いるのは、CEOのピップ・ビンゲマン氏と、CTOのキーラン・ブラウン氏です。
数字で見るFlintの実力
Flintは本当に多様な答えを出せるのでしょうか。テスト結果を見てみましょう。
創造性を測る独立した試験「Novelty Bench(ノベルティ・ベンチ)」での結果です。
Flintは10点満点で7点を獲得しました。ほかの主要AIの平均点は2.88点だったので、2倍以上の差をつけたことになります。
この「7点」には意味があります。
同じ質問を10回すると、Flintは7回とも「中身の違う答え」を返すという意味です。ほかのAIは、言い回しを少し変えただけの、実質同じ答えを繰り返しがちでした。
冒頭の数字あてでも違いは明らかでした。ChatGPTたちが「7」と答える中、Flintは「3.7916」という、いかにも人間らしくない意外な数字を返したそうです。
競合サービスとの違い
「多様な答えが欲しいなら、ChatGPTでも温度を上げればいいのでは?」と思うかもしれません。
ここが、Flintと既存サービスの分かれ道です。
- ChatGPT・Claude・Gemini:あらゆる用途に強い万能型。ただし標準設定では答えが画一化しやすい
- 温度を上げる方法:ランダムさは増えるが、上げすぎると文章が崩壊するリスク
- Flint:崩壊させず、狙った場所だけを多彩にする専門特化型
興味深いことに、Springboardsが提供するアイデア出しツールには、FlintだけでなくChatGPTやClaudeも組み込まれています。
つまり同社は「AIを1つに絞る」のではなく、「用途によって使い分ける」という考え方をしています。堅実な答えが欲しいときは既存AI、飛んだ発想が欲しいときはFlint、というわけです。
この分野では、答えの多様性を引き出す研究が世界中で進んでいます。2025年10月には「Verbalized Sampling(言語化サンプリング)」という、AIを訓練し直さずに多様性を引き出す手法も発表されました。Flintはその中でも、実際の製品として世に出た先駆けといえます。
日本市場への影響
この話は、遠い海外の出来事ではありません。日本にも深く関係します。
日本の広告・クリエイティブ業界では、生成AIの活用が急速に進んでいます。企画から制作、運用まで、AIが使われる場面はどんどん増えています。
ここで、ある広告代理店のプランナーを想像してみてください。新商品のキャッチコピーを考えるため、AIに100個のアイデアを出させます。ところが出てきた案は、どれも似たような言い回しばかり。これでは会議で使える玉が増えません。
まさにこれが画一化の弊害です。
さらに怖いのは、ライバル企業も同じAIを使えば、同じような広告表現に行き着いてしまうことです。街中の広告が、どれも似た雰囲気になりかねません。
日本の専門家からは「AIは大量のバリエーションを出せる反面、最終的にブランドの個性を守るのは人間の役目だ」という指摘も出ています。人が「ブランドの番人」として品質を担保する。この役割分担が、これまで以上に重要になります。
Flintのように多様性を売りにするAIは、まだ日本語への本格対応が発表されていません。ですが、その考え方は、日本のクリエイターにとっても大きなヒントになります。「AIに任せきりにしない」という姿勢が、独自性を生む鍵になるのです。
よくある質問(FAQ)
Q1. なぜAIは「7」を選びやすいのですか?
人間も「1〜10で数字を選んで」と言われると7を選びがちで、その傾向がネット上の大量の文章に表れています。AIはその文章から学ぶため、同じクセを受け継いだと考えられます。訓練方法による「平均への偏り」も重なっています。
Q2. 画一化(グループシンク)は何が問題なのですか?
プログラミングや調べ物なら安定していて便利です。問題になるのは創作やアイデア出しです。みんなが同じ発想しか得られないと、独自性が失われ、AIに相談する意味が薄れてしまいます。
Q3. Flintは誰でも使えますか?
Flintは主に広告担当者やマーケター向けに、Springboardsのアイデア出しツールを通じて提供されています。2026年4月にアルファ版が公開されましたが、一般向けの詳しい料金や日本語対応は現時点で発表されていません。
Q4. ChatGPTでも多様な答えを出せますか?
「温度」という設定を上げれば、ある程度は可能です。ただし上げすぎると文章が意味不明になるリスクがあります。Flintは、その崩壊を防ぎつつ狙った部分だけを多彩にする点が違います。
Q5. なぜFlintはゼロからAIを作らなかったのですか?
巨大AIを一から開発するには莫大な費用がかかるためです。Flintは、中国アリババが公開したオープンソースAI「Qwen3」を土台に、多様性を高める改良を加えています。
まとめ
今回のポイントを振り返ります。
- ChatGPTやClaudeに数字を選ばせると多くが「7」と答える。これは画一化(グループシンク)の一例
- 25種のAIに時間のたとえを書かせると、大半が「時間は川」に集中した(NeurIPS最優秀論文)
- 原因は、人間の好みを学ぶ訓練で「平均的な答え」に偏る「モード崩壊」
- 豪Springboardsの新AI「Flint」は、狙った場所だけに意外性を注入して多様性を実現
- 創造性テストで7点を獲得し、他AIの平均2.88点を大きく上回った
AIが便利になるほど、みんなの答えが似てしまうという逆説。まずは手元のAIに「1〜10で数字を選んで」と聞いて、その答えがどれだけ「ありきたり」か、自分の目で確かめてみましょう。
参考文献
- MIT Technology Review「Meet the company pushing chatbots away from the obvious」(2026年7月2日)
- OpenReview「Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)」(NeurIPS 2025)
- University of Washington Allen School News「Artificial Hivemind効果でNeurIPS最優秀論文賞」
- arXiv「Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity」(2025年10月)
- Springboards「Flint Alpha」公式ページ

