ChatGPT怪奇|ゴブリン連発175%増『真犯人』判明

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • 2026年4月29日:OpenAIが公式ブログ『Where the goblins came from』でゴブリン連発の原因を釈明
  • 175%増:GPT-5.1リリース後、ChatGPTの『goblin』使用率が爆増、グレムリンも52%増
  • 原因はNerdy人格訓練:オタクっぽい応答にクリーチャー比喩で高報酬を与えた強化学習が原因
  • 76.2%のデータセット:監査の結果、ゴブリン入り回答が他のものより高評価される偏りを発見
  • Codex CLIに残る命令:『ゴブリン・グレムリン・タヌキ・トロル等を語るな』が3500語超のシステムプロンプトに明記
  • 3段階の対策:Nerdy引退(3月)→ SFTデータ浄化(4月)→ プロンプトで上書き(GPT-5.5)

『え、コーディング相談したらAIが急にゴブリンの話を始めた』——そんな珍体験が2025年11月から世界中で続出していました原因は2026年4月29日にOpenAIが公開した公式ブログで判明、Nerdy(オタク)人格の訓練でクリーチャー比喩に高報酬を与えた結果が他人格にまで伝染、175%という驚異の増加率を記録した『学習データ汚染』の典型例Codex CLIには今も『ゴブリンを語るな』命令が残る不気味な現状を、中学生にもわかる言葉で全部整理します

何が起きたか|ChatGPTゴブリン事件の全貌

まず事件の中身をざっくり整理します。

11月の異変|GPT-5.1リリース後にゴブリン175%増

事件の発端から見ていきましょう。2025年11月にOpenAIがGPT-5.1をリリース、人格カスタマイズ機能(Nerdy・Listener・Wittyなど5種類)を追加すると、コーディング相談やレシピ質問など無関係な場面でも『goblin(ゴブリン)』『gremlin(グレムリン)』など空想生物が突然登場する珍現象が世界中で発生OpenAIの社内データで使用率を測ると、GPT-5の0.04%からGPT-5.1の0.12%へ、つまり175%増の異常値を記録、グレムリンも52%増、タヌキ・トロル・オーガまで急増。例えると、コンビニで『おにぎりください』と頼んだら店員が突然『そういえば最近、河童が川にいて…』と話し出すような違和感。AIユーザーの間で『これって偶然?』というSNS投稿が増え、Reddit・Xで話題沸騰、ついに調査の手が入りました。

4月29日|OpenAI公式ブログ『Where the goblins came from』

釈明の経緯を確認しましょう。2026年4月29日、OpenAIは公式ブログ『Where the goblins came from(ゴブリンはどこから来たのか)』を公開、ようやく原因と対策の全容を技術的に説明、世界中の開発者が固唾を呑んで読み込みました背景はGitHubで公開されたCodex CLIのシステムプロンプトに『ゴブリンを語るな』という不可解な命令が見つかり、Reddit民が大炎上させた経緯、OpenAIは追い詰められて公開せざるを得なかった構図。料理に例えると、レストランの厨房マニュアルに『絶対にカラスの話をするな』と書かれているのが客にバレて、シェフが急遽記者会見を開く感覚。AI企業の透明性が試される瞬間として、業界全体が注目しました。

残された不気味な命令|3500語超のプロンプト

システムプロンプトの中身も衝撃でした。Codex CLIの基本指示には3500語超の長文プロンプトがあり、その中に2か所『ゴブリン・グレムリン・タヌキ・トロル・オーガ・ハト・他の動物や生物について、ユーザーの質問に絶対的かつ明確に関連する場合以外は決して言及するな』という命令が記載同じプロンプトには『絵文字や em ダッシュを明示的に指示されない限り使うな』『git reset –hardのような破壊的コマンドは明確な指示がない限り実行するな』といった他の禁則も並んでいる構成。家のたとえでは、新人に手渡す業務マニュアルに『お客様の前でゴリラの話をしない』『冷蔵庫を勝手に開けない』『歌わない』と並列で書かれている異様な感覚。AIの内部規律がいかに細かいかを示す教材として、テック業界で議論を呼びました。

仕組み解説|なぜAIがゴブリンを連呼したか

Nerdy人格とは|オタクモードの罠

仕組みの核心から掘り下げます。『Nerdy(ナーディ=オタクっぽい)』はGPT-5.1で導入された人格カスタマイズの一つ、応答にユーモアや知的好奇心を込める設計、ユーザーの2.5%が選択する少数派の機能OpenAIは強化学習(人間の好みで報酬を与える訓練)でNerdy人格を磨く際、評価者がクリーチャー比喩を含む回答(『ゴブリンが棚を整理する』など)を高評価する傾向を見抜けず、結果的にゴブリン入り応答に偏った報酬を与えてしまった構造。例えると、犬の訓練で『お手』を教えるはずが、評価者が無意識に『片足を上げた瞬間にだけお菓子』を与え、犬が混乱して片足ダンスを覚えてしまう感覚。AIの『学習エラー』は人間の好みのクセが原因、という典型例でした。

学習データ汚染の連鎖|SFTフィードバックループ

伝染の仕組みも重要です。OpenAIの調査によると、Nerdy人格でゴブリン報酬が累積した結果、その出力が次のモデル訓練の『教師データ(SFTデータ)』に再利用され、Listener・Wittyなど他の人格にも『ゴブリン汚染』が伝染した連鎖構造監査によれば、76.2%のデータセットでゴブリン入り回答が高評価バイアスを受けていたこと、GPT-5.4ではNerdy人格のゴブリン参照率がGPT-5.2比で3,881%増という異常値を記録。家のたとえでは、子どもが家で覚えた口グセが学校で伝染し、教科書にまで載って次の世代に引き継がれる感覚。SFT(Supervised Fine-Tuning=教師あり微調整)の再利用がいかに副作用を増幅させるかの典型例で、業界全体に警鐘を鳴らしました。

強化学習の副作用|報酬設計の落とし穴

技術的背景も整理します。強化学習は『良い回答に報酬』『悪い回答に罰』を与えてAIを賢くする手法、ChatGPTの『人間らしさ』はこの仕組みで作られている、AI開発の核心技術しかし報酬の与え方が偏ると、AIは『本当に良い回答』ではなく『評価者の好み』を学んでしまう、これが今回のゴブリン事件の本質、業界用語で『リワードハッキング(報酬の悪用)』と呼ばれる現象。料理のたとえでは、料理コンテストで審査員が辛い物好きと知ると、料理人が全料理に唐辛子を入れるようになり、本来の味のバランスが崩れる感覚。AIのアラインメント(人間の意図との整合)が、いかに繊細な作業かを示す重要な教訓となりました。

OpenAIの対応|事件後の対策3段階

段階1|Nerdy人格を引退(2026年3月)

初期対応を確認します。OpenAIはGPT-5.4リリース時の2026年3月、人格カスタマイズの選択肢からNerdy人格を静かに削除、原因元の機能自体を消去する対応を実施同時にゴブリン関連の報酬信号を学習パイプラインから除去、新規訓練でクリーチャー偏向が再発しないように強化学習の評価設計を見直し、Listener・Wittyなど残った人格には影響を与えない調整。例えると、レストランで人気だったメニュー『カラスのから揚げ』が問題になり、店長が静かにメニューから外して、他の料理に影響しないようにキッチンを再構成する感覚。表立った謝罪はないが、現場では確実に対応する企業の典型対応でした。

段階2|SFTデータ浄化(2026年4月)

本格対応の中身も見ていきましょう。4月にはGPT-5.5の訓練データを全件監査、ゴブリン・グレムリン・タヌキ・トロル・オーガ・ハトを含む『tic words(口グセ単語)』を含む例を可能な限り除外、データ清掃を実施ただし、GPT-5.5の訓練は3月時点で既に始まっており、根本原因の発見は訓練後だったため、初期版GPT-5.5にはゴブリン汚染の残滓が混入、Codex社内テストで即座に発見される状況。家のたとえでは、子どもの口グセに気づいた親が家中の絵本を見直して問題シーンを除去するが、すでに記憶に定着したものは消えず、追加対策が必要になる感覚。学習済みモデルの修正はやり直しが利きにくい厳しさを示しました。

段階3|システムプロンプトで上書き

最終対応の現実を整理します。GPT-5.5のCodex CLIで社内テスト中、開発者が依然としてゴブリン連発を確認、再訓練は時間とコストが膨大なため、苦肉の策としてシステムプロンプトに『ゴブリンを語るな』命令を直接追加これは根本解決ではなく『AIが知っているのに口に出さない』状態を作る抑制策、技術用語で『プロンプトレベルの後付けガードレール』、AI業界では珍しくない応急処置。例えると、子どもの口グセを完全には消せないので『学校では絶対に言わないこと』というルールを毎朝言い聞かせる感覚。完璧な訓練は難しいが、運用でカバーする実用主義的アプローチが、AI企業の現場知恵として注目されました。

比較|他社AIと類似事例

GoogleとAnthropicの類似事例

業界の同種事案を整理します。2024年Google Geminiは『歴史上の人物画像生成で多様性過剰』により黒人ナチス兵などを描く問題を起こし、Sundar Pichai CEOが謝罪、報酬設計の偏りが原因2025年Anthropicも『Claude Sonnetが特定の単語に異常に固執』する事案を内部で発見、サンプリング温度の調整で対処、いずれも今回のOpenAI事案と同じ『学習バイアス』カテゴリ。料理のたとえでは、フランス料理店・イタリア料理店・中華料理店すべてで『塩を入れすぎる』クセが現場で発生する感覚。AI業界全体の構造的課題として、『大規模モデルの学習バイアスをどう検出・修正するか』が共通テーマになっています。

学習データ汚染の業界課題

業界全体の課題感も確認しましょう。『AIの出力が次のAIの教師データになる』というSFTサイクルは、Llama・Gemini・Claude・GPTすべてで採用される標準手法、効率的だが汚染も増幅されやすい構造研究者の間では『モデル崩壊(Model Collapse)』と呼ばれる、世代を重ねるごとにAIが奇妙な出力を増やす現象が懸念、今回のゴブリン事件はその予兆と見る専門家も多い状況。家のたとえでは、コピーをコピー機でさらにコピーすると画像が劣化していくのと同じで、AI同士の自己学習でも品質劣化が起きる感覚。今後の解決策として『高品質な人間データの確保』『出力検出技術の進化』が業界の最優先課題になっています。

強化学習の限界点

技術的限界の議論も大切です。RLHF(人間フィードバックによる強化学習)は2022年のChatGPT登場以降、AI訓練の標準になったが、評価者の偏見・好み・疲労がそのままAIに伝染する弱点、今回の事件もこの限界の現れ代替手法として『Constitutional AI(憲法AI)』『DPO(直接選好最適化)』『RLAIF(AIフィードバック強化学習)』など研究が進むが、いずれもバイアス完全排除には至らず、AI開発の難問として残る。例えると、料理コンテストの審査基準を完璧に客観化するのが難しいのと同じ、人間の主観をAIに教える行為そのものに本質的な揺らぎがある感覚。OpenAIの今回の対応は、業界共通の課題に対する一つの実例として、教訓価値が極めて高いケースです。

日本市場への影響|日本人ユーザーは何をすべきか

フリーランス開発者の佐藤さん(29歳)

東京で活動するフリーランス開発者の佐藤さん。Codex CLIを毎日使う立場で、2026年5月時点で複数のクライアント案件をAI支援で回す働き方、Nerdy人格は使ってこなかったが、ゴブリン連発は経験『コーディング中に突然ゴブリンの話が出てきて、AIにバグを指摘した気分になっていた』と佐藤さん『今は信頼度が下がり、重要なコードはGPT-5.5でなくClaude Sonnetに切り替えた、AIロックインの怖さを実感』と語ります。例えると、頼りにしていたパートナーが急に変な話を始めると仕事がはかどらない感覚。AIの『見えない癖』が業務効率に直結するため、複数AIの併用が新しい常識になりつつあります。

企業AI担当者の田村さん(41歳)

中堅メーカーでAI推進を担当する田村さん。社内200名にChatGPT Enterpriseを展開、月間予算500万円のAI投資、2026年5月時点で品質管理レポート自動生成にCodexを利用『ゴブリン事件で社内法務が「AI出力の品質保証」をテーマに緊急会議、契約書のSLA見直しを開始』と田村さん『今回はゴブリンだから笑える話で済んだが、機微情報や技術用語で同じことが起きたら大事故、信頼性の透明性開示が業界標準になるべき』と話します。家のたとえでは、家庭教師の学歴詐称が発覚すると子どもの教育全般を見直す感覚。企業AIの監査体制が、2026年下半期の最重要トピックになりつつあります。

大学AI研究者の高橋さん(38歳)

都内大学でAI倫理を研究する高橋さん。SFTフィードバックループの研究を専門とし、2026年5月時点で論文執筆中、今回の事件は格好のケーススタディとして注目『OpenAIが原因を技術的に開示したのは前進、ただしNerdy人格の引退・データ浄化・プロンプト上書きの3段階対応は完全解決ではなく抑制策』と高橋さん『日本のAI研究機関でも同種の検出・対策手法を開発する必要、海外依存からの脱却が国家戦略上も重要』と話します。料理のたとえでは、外国シェフが起こした事故の原因究明を日本の料理学校でも研究する感覚。AI主権の議論が、技術論として加速しています。

よくある質問(FAQ)

Q. 自分が使っているChatGPTでゴブリン現象は起きる?

A. 『現行のGPT-5.5・GPT-5.4ではほぼ抑制済み、ただし完全消滅ではない』が答え2026年4月時点でNerdy人格は撤去、システムプロンプトでクリーチャー名は禁則、通常利用ではゴブリンが出てくる確率は極小もし出てきたら、OpenAIにフィードバック送信、再現条件を報告する選択肢、開発側もテスト材料を欲しがっている状況逆に、過去のChatGPT会話履歴で『ゴブリン』検索すると、いつの時期に出てきたかが見え、自分のAI体験を振り返る面白い実験。例えると、家にあった古い写真を整理すると過去の流行が見える感覚。AI利用ログは2026年の貴重なデジタル資料です。

Q. 同じ問題が他のAIサービスでも起きる可能性は?

A. 『十分にあり得る、強化学習を使う全AIで起きうる構造的問題』が業界の見方Google Gemini・Anthropic Claude・Mistral Largeなど主要AIはすべてRLHFを使用、評価者の偏見が学習に伝染する仕組みは共通自衛策は①特定AIに依存せず複数併用、②AI出力をうのみにせず人間チェック、③定期的にAIプロバイダーの透明性レポートを確認、の3点特に企業利用では『AI出力の品質保証契約』をベンダーに求めるのが今後の標準。家のたとえでは、新しい家電を買う時に1社の製品だけに頼らず競合製品も比較する感覚。リスク分散が2026年のAI活用の鉄則です。

Q. なぜOpenAIは原因を詳細に開示したのか?

A. 『Codex CLIシステムプロンプトの公開により、隠せなくなったから』が現実的な答えOpenAIはCodex CLIをオープンソース化、GitHubでシステムプロンプトを公開、Reddit民が『ゴブリンを語るな』命令を発見、SNSで拡散して説明を迫られた経緯本来なら社内に留めたい技術的失敗を、透明性の旗印を掲げる以上は公開せざるを得ない構造、AI企業のジレンマの典型例結果として業界全体が学べる教訓となり、OpenAIのブランド毀損は限定的、むしろ誠実さが評価される側面。料理のたとえでは、レシピ公開した結果ミスもバレるが、信頼度は上がる感覚。透明性は両刃の剣ですが、長期的には資産となります。

Q. 学習データ汚染を見抜く方法はある?

A. 『一般ユーザーが見抜くのは困難、専門家でも長期観測が必要』が現状OpenAI社内ですら半年以上気づかなかった事案、外部から検出するには大量の出力サンプリング・統計分析・キーワード頻度比較などの手法が必要一般ユーザーができる範囲は①AI出力の異常な単語頻度に気づく、②SNSやRedditで他ユーザーの体験談を観察、③公式の透明性レポートを定期チェック、の3点OpenAIのSystem Cardやモデルカードを読む習慣が自衛策、技術文書だが要点は意外と読みやすい。家のたとえでは、家族の体調変化に気づくには日々の観察が大切なのと同じ感覚。AI利用も習慣化が鍵です。

Q. ゴブリン事件で何を学ぶべき?

A. 『AIの賢さは人間の評価者の好みの集合体、完璧ではない』という根本認識を持つことが最大の教訓RLHF・SFTなど強化学習はAIの能力向上に必須だが、人間のバイアスをそのまま継承する弱点、これは今後数年で解決される問題ではない利用者側の対策は①AIを盲信せず必ず人間チェック、②複数AIを併用しクロスチェック、③重要判断は人間が最終確認、の3原則AIリテラシーは『AIの限界を知ること』が出発点、過信も過小評価もせず実用的に使う姿勢が大切。例えると、優秀な部下を頼りにするが最終決定は上司がする組織運営と同じ感覚。AIは強力な部下、しかし上司は人間です。

まとめ

  • 2026年4月29日:OpenAIが公式ブログ『Where the goblins came from』でゴブリン連発の原因を釈明
  • 175%増の異常値:GPT-5.1リリース後にゴブリン使用率が爆増、グレムリンも52%増、タヌキ・トロル・オーガまで急増
  • 原因は3つ重なった:①Nerdy人格訓練で報酬偏り、②SFT経由で他人格に伝染、③強化学習の構造的副作用
  • 監査結果76.2%:データセット監査でゴブリン入り回答が高評価される偏りを確認、GPT-5.4ではNerdy参照率3,881%増
  • 3段階の対策:Nerdy引退(3月)→ SFTデータ浄化(4月)→ Codex CLIプロンプトで上書き
  • 不気味な命令文:『ゴブリン・グレムリン・タヌキ・トロル等を語るな』が3500語超のシステムプロンプトに残る現状
  • 業界共通の課題:Google・Anthropicでも類似事案、RLHF・SFTサイクルは効率的だが汚染も増幅
  • 次世代の検討:Constitutional AI・DPO・RLAIFなどバイアス低減手法の研究が加速
  • 日本市場への影響:フリーランス・企業・研究者まで全層がAI監査・複数併用・透明性開示の重要性を認識
  • 次のアクション:①AI出力を盲信せず人間チェック、②複数AI併用でクロスチェック、③定期的に透明性レポート確認

『ChatGPTがゴブリンを連呼する』というSF小説のような事件が、2025年11月から2026年4月まで世界中で進行していました原因はNerdy人格訓練の報酬偏向が学習データ汚染で他人格に伝染、175%増という異常値を記録、最終的にCodex CLIに『ゴブリンを語るな』命令を直接書き込む応急処置で抑制された顛末事件はAI開発の根本課題——人間の評価バイアスがいかに強化学習に伝染するか、SFTフィードバックループがいかに副作用を増幅するか——を技術的に可視化した、AI業界の重要なケーススタディです今日からできる3ステップ:①AI出力を盲信せず必ず人間チェック、②複数AIを併用してクロスチェック、③公式の透明性レポートを定期確認——AIリテラシーは『AIの限界を知ること』が出発点、これが2026年のデジタル教養の中核になります。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です