OpenAI新研究｜AIに「分からない」と言わせる

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

OpenAIが2026年6月18日、AIに「正直さ」や「分からないと認める力」を強化学習で教える研究を公開しました
健康など一部の分野だけで訓練しても、その良い行動がプログラミングなど別の分野にも広がりました
53種類のテストのうち44種類で、ふつうのAIより良いスコアを出しました
AIが事実をでっち上げる「ハルシネーション」を減らすカギになると期待されています
医療や法律でAIを使う日本の企業にとっても、安心して使える土台づくりにつながります

AIに質問したら、もっともらしい嘘の答えが返ってきて困ったことはありませんか？このAIの「知ったかぶり」は、長いあいだ解決できない大問題でした。OpenAIが2026年6月18日に公開した新しい研究は、AIに「分からないことは分からないと言う正直さ」を教え込む方法を示しました。しかも、その正直さは教えていない場面にも広がるというのです。

OpenAIが公開した研究とは？

OpenAIは2026年6月18日、新しいアラインメント（AIを人間にとって望ましい行動にそろえること）の研究を発表しました。

論文のタイトルは「広く永続的に有益なモデルに向けた強化学習」です。

研究の中心となる問いはシンプルです。

「AIに良い性格を教えたら、教えていない場面でも良い行動をとってくれるのか？」

たとえば、医療の相談で正直に答えるよう訓練したAIが、まったく別のプログラミングの作業でもズルをしなくなるのか。これを確かめたのです。

「強化学習」をやさしく言うと

強化学習（AIが良い行動にごほうびをもらって学ぶしくみ）は、ペットのしつけに似ています。

正しいことをしたらおやつをあげる。これをくり返すと、その行動が身につきます。

OpenAIは、AIが正直に答えたときに「ごほうび」を与える方法で、誠実さを教え込みました。

AIに教えた「15個の良い性格」

研究チームは、AIに身につけてほしい良い性格を細かく15個に分けました。

そのなかでも特に大事なものを紹介します。

正直さ：不正確なことを言わない
認識論的な謙虚さ：分からないことを「分からない」と認める
メタ認知の透明性：自分がどう考えたかを説明できる
是正可能性：間違いを指摘されたら素直に直せる
リスク感度：危険なことに気を配る
普遍的な公平さ：相手によって態度を変えない
人間の幸福への配慮：使う人のためを思う

このうち「認識論的な謙虚さ」が、今回いちばん注目されています。

むずかしい言葉ですが、中身は「知ったかぶりをしない態度」のことです。

どんなデータで教えたのか

研究チームは、本物の会話に近いシナリオを大量に用意しました。

分野は健康、教育、科学、法律、工学、経済など、12分野にもおよびます。

そして、ふつうの訓練データ95%に、この「良い性格データ」をたった5%だけ混ぜました。

少しの良い手本を加えるだけで、AI全体の行動が変わるかを試したのです。

いちばんの発見「良い行動が他の分野に広がる」

今回の研究で最も驚かれたのが、良い性格が訓練していない分野にも「広がった」ことです。

研究では、これを「汎化（はんか）」と呼んでいます。

汎化とは、ある場所で覚えたことを、別の場所でも応用できる力のことです。

健康だけ教えたのに、プログラミングでも正直に

具体的な実験を見てみましょう。

健康分野のデータだけでAIを訓練しました。

すると、まったく関係ないプログラミング関連の17件のテストでも、AIの行動が良くなったのです。

誠実さや「ズルをしない態度」が、教えていない場所まで自然と染み出していきました。

これは、新入社員が接客の心得を学んだら、頼んでもいない電話対応まで丁寧になった、というような出来事です。

53テスト中44テストで好成績

研究チームは、訓練に使っていない別の53件のテストでAIを評価しました。

その結果、良い性格を学んだAIは44件で、ふつうのAIより良いスコアを出しました。

しかも、悪い命令にもなかなか従わなくなりました。

「危険な人格になりきって」といった意地悪な指示への抵抗力も上がったのです。

一方で、正当なお願いにはちゃんと応じる柔軟さも残っていました。

なぜAIは「知ったかぶり」をするのか

そもそも、なぜAIは分からないことまで答えてしまうのでしょうか。

OpenAIは2025年に「なぜ言語モデルはハルシネーションを起こすのか」という研究も出しています。

ハルシネーション（AIが事実でないことをもっともらしく作り出す現象）は、AIの最大の弱点の一つです。

原因は「テストの採点方法」にあった

OpenAIによれば、原因はAIの訓練やテストのやり方にありました。

多くのテストでは、「分かりません」と正直に答えると0点になります。

でも、当てずっぽうでも答えれば、たまたま当たって点がもらえます。

これは学校のテストと同じです。空欄にするより、とりあえず何か書いたほうが得をします。

その結果、AIは「分からなくても、それっぽく答えたほうが得」と学んでしまったのです。

今回の「認識論的な謙虚さ」を教える研究は、この根っこの問題に正面から取り組んだものといえます。

他社の方法と何が違う？

AIを安全で正直にする取り組みは、OpenAIだけのものではありません。

ライバル各社も独自の方法を持っています。違いを整理してみましょう。

Anthropicの「憲法AI」との比較

OpenAIの最大のライバルであるAnthropic（アンソロピック）は、「憲法AI」という方法を使っています。

これは、人権宣言などをもとにした「ルール集（憲法）」をAIに与え、AI自身に自分の答えをチェックさせるやり方です。

2026年1月には、その憲法を「ルール型」から「理由を説明する型」へと改訂しました。

Anthropic（憲法AI）：書かれたルールをもとに、AIが自分で自分を採点して直す
OpenAI（今回の研究）：良い性格の手本を強化学習で少しずつ教え込む
共通の狙い：見たことのない新しい場面でも、AIが正しく判断できるようにする

Anthropicが「明文化したルール」を重んじるのに対し、OpenAIは「行動の汎化」を実験で示そうとした点が特徴です。

OpenAI自身の「モデル仕様書」との関係

OpenAIには「モデル仕様書（Model Spec）」という指針もあります。

2025年12月に最新版が出たもので、AIがどう振る舞うべきかを定めた文書です。

今回の研究は、こうした方針を「実際にAIへ定着させる技術」の一つと位置づけられます。

日本のユーザーや企業への影響

この研究は遠い海外の話に思えるかもしれません。

しかし、日本でAIを使う私たちにも、大きく関わってきます。

医療・法律など「間違いが許されない」現場で安心感

日本でも、医療や法律、金融の分野でAIの活用が進んでいます。

ある病院の窓口で、AIが患者さんの質問に答える場面を想像してみてください。

このとき、AIが知ったかぶりで間違った医療情報を答えたら、大変なことになります。

「分からないことは、分からないと言う」AIなら、こうした事故を防ぎやすくなります。

正直さが身についたAIは、責任の重い現場ほど価値が高まります。

日本のAI開発にも波及するか

日本でも、Sakana AI（サカナAI）のような独自のAI企業が育っています。

こうした国内勢が、今回の「少ない手本で良い性格を広げる」手法を取り入れる可能性もあります。

大量のデータがなくてもAIを正直にできるなら、開発コストをおさえたい日本企業にとっても朗報です。

つまり、安全なAIづくりのハードルが下がるかもしれないのです。

この研究の限界と今後の課題

もちろん、今回の研究ですべてが解決したわけではありません。

OpenAI自身も、いくつかの課題を正直に認めています。

15個のうち、どの性格が「良い行動の土台」になっているかは、まだはっきりしない
「良い性格とは何か」を、社会全体でどう決めるかという問題が残る
悪意ある追加学習への耐性テストは、まだ予備的な段階
長い時間が経っても性格が保たれるかは、これからの検証が必要

「何を良いとするか」は、国や文化によって考えが違います。

世界中が納得する答えを出すのは、簡単ではありません。

よくある質問（FAQ）

Q1. ハルシネーションは完全になくなるのですか？

いいえ、完全にはなくなりません。今回の研究は、AIが「分からない」と正直に言いやすくする工夫です。間違いを減らす効果は期待できますが、ゼロにする技術ではありません。

Q2. 「汎化」とは結局どういう意味ですか？

ある分野で学んだ良い行動が、教えていない別の分野にも広がることです。健康の話で正直さを学んだAIが、プログラミングでもズルをしなくなった、というのが今回の例です。

Q3. この技術は今すぐChatGPTで使えますか？

現時点では研究段階の発表です。すぐに製品へ反映されるとは限りません。ただ、今後のモデル改良に活かされていく可能性は高いと考えられます。

Q4. なぜ良い性格データを「5%」しか混ぜなかったのですか？

少しの手本でもAI全体の行動が変わるかを確かめるためです。結果として、わずか5%でも大きな効果が出ました。これは効率の良い訓練方法といえます。

Q5. 日本語のAIでも同じ効果はありますか？

研究は主に英語で行われましたが、考え方そのものは言語を問いません。日本語のAIにも応用できる可能性があります。今後の検証が待たれます。

まとめ

今回のOpenAIの研究のポイントを振り返ります。

AIに「正直さ」や「分からないと認める力」を強化学習で教えた
健康など一部の分野で教えただけで、良い行動が他の分野にも広がった
53テスト中44テストで、ふつうのAIより良い成績を出した
AIのハルシネーション（でっち上げ）対策の新しいカギとして注目されている
医療や法律など、間違いが許されない日本の現場でも価値が高い

まずは普段使っているAIに「分からないことは分からないと答えてね」と一言添えてみると、その違いを実感できるかもしれません。

参考文献

こんな時代だから遊んで学びたい

AIを学ぶオンラインサロン「AIフレンズ」では、生成AIを楽しく、どこよりも優しく学べる環境をご用意しております。

毎週開催されるオンラインセッションでは、リアルタイムで学び合える機会を提供しています。さらに、月に一度のオフラインイベントでは、メンバー同士が直接交流し、アイデアや知識を深めることができます。

「AIフレンズ」の仲間とともに、新しい価値を創造し、可能性を広げてみませんか？

一緒に学び、成長しながら、生成AIを使いこなす力を身につけましょう！

今すぐAIフレンズに参加して、未来への第一歩を踏み出そう！！