OpenAI新研究|AIに「分からない」と言わせる

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • OpenAIが2026年6月18日、AIに「正直さ」や「分からないと認める力」を強化学習で教える研究を公開しました
  • 健康など一部の分野だけで訓練しても、その良い行動がプログラミングなど別の分野にも広がりました
  • 53種類のテストのうち44種類で、ふつうのAIより良いスコアを出しました
  • AIが事実をでっち上げる「ハルシネーション」を減らすカギになると期待されています
  • 医療や法律でAIを使う日本の企業にとっても、安心して使える土台づくりにつながります

AIに質問したら、もっともらしい嘘の答えが返ってきて困ったことはありませんか?このAIの「知ったかぶり」は、長いあいだ解決できない大問題でした。OpenAIが2026年6月18日に公開した新しい研究は、AIに「分からないことは分からないと言う正直さ」を教え込む方法を示しました。しかも、その正直さは教えていない場面にも広がるというのです。

OpenAIが公開した研究とは?

OpenAIは2026年6月18日、新しいアラインメント(AIを人間にとって望ましい行動にそろえること)の研究を発表しました。

論文のタイトルは「広く永続的に有益なモデルに向けた強化学習」です。

研究の中心となる問いはシンプルです。

「AIに良い性格を教えたら、教えていない場面でも良い行動をとってくれるのか?」

たとえば、医療の相談で正直に答えるよう訓練したAIが、まったく別のプログラミングの作業でもズルをしなくなるのか。これを確かめたのです。

「強化学習」をやさしく言うと

強化学習(AIが良い行動にごほうびをもらって学ぶしくみ)は、ペットのしつけに似ています。

正しいことをしたらおやつをあげる。これをくり返すと、その行動が身につきます。

OpenAIは、AIが正直に答えたときに「ごほうび」を与える方法で、誠実さを教え込みました。

AIに教えた「15個の良い性格」

研究チームは、AIに身につけてほしい良い性格を細かく15個に分けました。

そのなかでも特に大事なものを紹介します。

  • 正直さ:不正確なことを言わない
  • 認識論的な謙虚さ:分からないことを「分からない」と認める
  • メタ認知の透明性:自分がどう考えたかを説明できる
  • 是正可能性:間違いを指摘されたら素直に直せる
  • リスク感度:危険なことに気を配る
  • 普遍的な公平さ:相手によって態度を変えない
  • 人間の幸福への配慮:使う人のためを思う

このうち「認識論的な謙虚さ」が、今回いちばん注目されています。

むずかしい言葉ですが、中身は「知ったかぶりをしない態度」のことです。

どんなデータで教えたのか

研究チームは、本物の会話に近いシナリオを大量に用意しました。

分野は健康、教育、科学、法律、工学、経済など、12分野にもおよびます。

そして、ふつうの訓練データ95%に、この「良い性格データ」をたった5%だけ混ぜました。

少しの良い手本を加えるだけで、AI全体の行動が変わるかを試したのです。

いちばんの発見「良い行動が他の分野に広がる」

今回の研究で最も驚かれたのが、良い性格が訓練していない分野にも「広がった」ことです。

研究では、これを「汎化(はんか)」と呼んでいます。

汎化とは、ある場所で覚えたことを、別の場所でも応用できる力のことです。

健康だけ教えたのに、プログラミングでも正直に

具体的な実験を見てみましょう。

健康分野のデータだけでAIを訓練しました。

すると、まったく関係ないプログラミング関連の17件のテストでも、AIの行動が良くなったのです。

誠実さや「ズルをしない態度」が、教えていない場所まで自然と染み出していきました。

これは、新入社員が接客の心得を学んだら、頼んでもいない電話対応まで丁寧になった、というような出来事です。

53テスト中44テストで好成績

研究チームは、訓練に使っていない別の53件のテストでAIを評価しました。

その結果、良い性格を学んだAIは44件で、ふつうのAIより良いスコアを出しました。

しかも、悪い命令にもなかなか従わなくなりました。

「危険な人格になりきって」といった意地悪な指示への抵抗力も上がったのです。

一方で、正当なお願いにはちゃんと応じる柔軟さも残っていました。

なぜAIは「知ったかぶり」をするのか

そもそも、なぜAIは分からないことまで答えてしまうのでしょうか。

OpenAIは2025年に「なぜ言語モデルはハルシネーションを起こすのか」という研究も出しています。

ハルシネーション(AIが事実でないことをもっともらしく作り出す現象)は、AIの最大の弱点の一つです。

原因は「テストの採点方法」にあった

OpenAIによれば、原因はAIの訓練やテストのやり方にありました。

多くのテストでは、「分かりません」と正直に答えると0点になります。

でも、当てずっぽうでも答えれば、たまたま当たって点がもらえます。

これは学校のテストと同じです。空欄にするより、とりあえず何か書いたほうが得をします。

その結果、AIは「分からなくても、それっぽく答えたほうが得」と学んでしまったのです。

今回の「認識論的な謙虚さ」を教える研究は、この根っこの問題に正面から取り組んだものといえます。

他社の方法と何が違う?

AIを安全で正直にする取り組みは、OpenAIだけのものではありません。

ライバル各社も独自の方法を持っています。違いを整理してみましょう。

Anthropicの「憲法AI」との比較

OpenAIの最大のライバルであるAnthropic(アンソロピック)は、「憲法AI」という方法を使っています。

これは、人権宣言などをもとにした「ルール集(憲法)」をAIに与え、AI自身に自分の答えをチェックさせるやり方です。

2026年1月には、その憲法を「ルール型」から「理由を説明する型」へと改訂しました。

  • Anthropic(憲法AI):書かれたルールをもとに、AIが自分で自分を採点して直す
  • OpenAI(今回の研究):良い性格の手本を強化学習で少しずつ教え込む
  • 共通の狙い:見たことのない新しい場面でも、AIが正しく判断できるようにする

Anthropicが「明文化したルール」を重んじるのに対し、OpenAIは「行動の汎化」を実験で示そうとした点が特徴です。

OpenAI自身の「モデル仕様書」との関係

OpenAIには「モデル仕様書(Model Spec)」という指針もあります。

2025年12月に最新版が出たもので、AIがどう振る舞うべきかを定めた文書です。

今回の研究は、こうした方針を「実際にAIへ定着させる技術」の一つと位置づけられます。

日本のユーザーや企業への影響

この研究は遠い海外の話に思えるかもしれません。

しかし、日本でAIを使う私たちにも、大きく関わってきます。

医療・法律など「間違いが許されない」現場で安心感

日本でも、医療や法律、金融の分野でAIの活用が進んでいます。

ある病院の窓口で、AIが患者さんの質問に答える場面を想像してみてください。

このとき、AIが知ったかぶりで間違った医療情報を答えたら、大変なことになります。

「分からないことは、分からないと言う」AIなら、こうした事故を防ぎやすくなります。

正直さが身についたAIは、責任の重い現場ほど価値が高まります。

日本のAI開発にも波及するか

日本でも、Sakana AI(サカナAI)のような独自のAI企業が育っています。

こうした国内勢が、今回の「少ない手本で良い性格を広げる」手法を取り入れる可能性もあります。

大量のデータがなくてもAIを正直にできるなら、開発コストをおさえたい日本企業にとっても朗報です。

つまり、安全なAIづくりのハードルが下がるかもしれないのです。

この研究の限界と今後の課題

もちろん、今回の研究ですべてが解決したわけではありません。

OpenAI自身も、いくつかの課題を正直に認めています。

  • 15個のうち、どの性格が「良い行動の土台」になっているかは、まだはっきりしない
  • 「良い性格とは何か」を、社会全体でどう決めるかという問題が残る
  • 悪意ある追加学習への耐性テストは、まだ予備的な段階
  • 長い時間が経っても性格が保たれるかは、これからの検証が必要

「何を良いとするか」は、国や文化によって考えが違います。

世界中が納得する答えを出すのは、簡単ではありません。

よくある質問(FAQ)

Q1. ハルシネーションは完全になくなるのですか?

いいえ、完全にはなくなりません。今回の研究は、AIが「分からない」と正直に言いやすくする工夫です。間違いを減らす効果は期待できますが、ゼロにする技術ではありません。

Q2. 「汎化」とは結局どういう意味ですか?

ある分野で学んだ良い行動が、教えていない別の分野にも広がることです。健康の話で正直さを学んだAIが、プログラミングでもズルをしなくなった、というのが今回の例です。

Q3. この技術は今すぐChatGPTで使えますか?

現時点では研究段階の発表です。すぐに製品へ反映されるとは限りません。ただ、今後のモデル改良に活かされていく可能性は高いと考えられます。

Q4. なぜ良い性格データを「5%」しか混ぜなかったのですか?

少しの手本でもAI全体の行動が変わるかを確かめるためです。結果として、わずか5%でも大きな効果が出ました。これは効率の良い訓練方法といえます。

Q5. 日本語のAIでも同じ効果はありますか?

研究は主に英語で行われましたが、考え方そのものは言語を問いません。日本語のAIにも応用できる可能性があります。今後の検証が待たれます。

まとめ

今回のOpenAIの研究のポイントを振り返ります。

  • AIに「正直さ」や「分からないと認める力」を強化学習で教えた
  • 健康など一部の分野で教えただけで、良い行動が他の分野にも広がった
  • 53テスト中44テストで、ふつうのAIより良い成績を出した
  • AIのハルシネーション(でっち上げ)対策の新しいカギとして注目されている
  • 医療や法律など、間違いが許されない日本の現場でも価値が高い

まずは普段使っているAIに「分からないことは分からないと答えてね」と一言添えてみると、その違いを実感できるかもしれません。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です