- OpenAIが2026年6月18日、AIに「正直さ」や「分からないと認める力」を強化学習で教える研究を公開しました
- 健康など一部の分野だけで訓練しても、その良い行動がプログラミングなど別の分野にも広がりました
- 53種類のテストのうち44種類で、ふつうのAIより良いスコアを出しました
- AIが事実をでっち上げる「ハルシネーション」を減らすカギになると期待されています
- 医療や法律でAIを使う日本の企業にとっても、安心して使える土台づくりにつながります
AIに質問したら、もっともらしい嘘の答えが返ってきて困ったことはありませんか?このAIの「知ったかぶり」は、長いあいだ解決できない大問題でした。OpenAIが2026年6月18日に公開した新しい研究は、AIに「分からないことは分からないと言う正直さ」を教え込む方法を示しました。しかも、その正直さは教えていない場面にも広がるというのです。
OpenAIが公開した研究とは?
OpenAIは2026年6月18日、新しいアラインメント(AIを人間にとって望ましい行動にそろえること)の研究を発表しました。
論文のタイトルは「広く永続的に有益なモデルに向けた強化学習」です。
研究の中心となる問いはシンプルです。
「AIに良い性格を教えたら、教えていない場面でも良い行動をとってくれるのか?」
たとえば、医療の相談で正直に答えるよう訓練したAIが、まったく別のプログラミングの作業でもズルをしなくなるのか。これを確かめたのです。
「強化学習」をやさしく言うと
強化学習(AIが良い行動にごほうびをもらって学ぶしくみ)は、ペットのしつけに似ています。
正しいことをしたらおやつをあげる。これをくり返すと、その行動が身につきます。
OpenAIは、AIが正直に答えたときに「ごほうび」を与える方法で、誠実さを教え込みました。
AIに教えた「15個の良い性格」
研究チームは、AIに身につけてほしい良い性格を細かく15個に分けました。
そのなかでも特に大事なものを紹介します。
- 正直さ:不正確なことを言わない
- 認識論的な謙虚さ:分からないことを「分からない」と認める
- メタ認知の透明性:自分がどう考えたかを説明できる
- 是正可能性:間違いを指摘されたら素直に直せる
- リスク感度:危険なことに気を配る
- 普遍的な公平さ:相手によって態度を変えない
- 人間の幸福への配慮:使う人のためを思う
このうち「認識論的な謙虚さ」が、今回いちばん注目されています。
むずかしい言葉ですが、中身は「知ったかぶりをしない態度」のことです。
どんなデータで教えたのか
研究チームは、本物の会話に近いシナリオを大量に用意しました。
分野は健康、教育、科学、法律、工学、経済など、12分野にもおよびます。
そして、ふつうの訓練データ95%に、この「良い性格データ」をたった5%だけ混ぜました。
少しの良い手本を加えるだけで、AI全体の行動が変わるかを試したのです。
いちばんの発見「良い行動が他の分野に広がる」
今回の研究で最も驚かれたのが、良い性格が訓練していない分野にも「広がった」ことです。
研究では、これを「汎化(はんか)」と呼んでいます。
汎化とは、ある場所で覚えたことを、別の場所でも応用できる力のことです。
健康だけ教えたのに、プログラミングでも正直に
具体的な実験を見てみましょう。
健康分野のデータだけでAIを訓練しました。
すると、まったく関係ないプログラミング関連の17件のテストでも、AIの行動が良くなったのです。
誠実さや「ズルをしない態度」が、教えていない場所まで自然と染み出していきました。
これは、新入社員が接客の心得を学んだら、頼んでもいない電話対応まで丁寧になった、というような出来事です。
53テスト中44テストで好成績
研究チームは、訓練に使っていない別の53件のテストでAIを評価しました。
その結果、良い性格を学んだAIは44件で、ふつうのAIより良いスコアを出しました。
しかも、悪い命令にもなかなか従わなくなりました。
「危険な人格になりきって」といった意地悪な指示への抵抗力も上がったのです。
一方で、正当なお願いにはちゃんと応じる柔軟さも残っていました。
なぜAIは「知ったかぶり」をするのか
そもそも、なぜAIは分からないことまで答えてしまうのでしょうか。
OpenAIは2025年に「なぜ言語モデルはハルシネーションを起こすのか」という研究も出しています。
ハルシネーション(AIが事実でないことをもっともらしく作り出す現象)は、AIの最大の弱点の一つです。
原因は「テストの採点方法」にあった
OpenAIによれば、原因はAIの訓練やテストのやり方にありました。
多くのテストでは、「分かりません」と正直に答えると0点になります。
でも、当てずっぽうでも答えれば、たまたま当たって点がもらえます。
これは学校のテストと同じです。空欄にするより、とりあえず何か書いたほうが得をします。
その結果、AIは「分からなくても、それっぽく答えたほうが得」と学んでしまったのです。
今回の「認識論的な謙虚さ」を教える研究は、この根っこの問題に正面から取り組んだものといえます。
他社の方法と何が違う?
AIを安全で正直にする取り組みは、OpenAIだけのものではありません。
ライバル各社も独自の方法を持っています。違いを整理してみましょう。
Anthropicの「憲法AI」との比較
OpenAIの最大のライバルであるAnthropic(アンソロピック)は、「憲法AI」という方法を使っています。
これは、人権宣言などをもとにした「ルール集(憲法)」をAIに与え、AI自身に自分の答えをチェックさせるやり方です。
2026年1月には、その憲法を「ルール型」から「理由を説明する型」へと改訂しました。
- Anthropic(憲法AI):書かれたルールをもとに、AIが自分で自分を採点して直す
- OpenAI(今回の研究):良い性格の手本を強化学習で少しずつ教え込む
- 共通の狙い:見たことのない新しい場面でも、AIが正しく判断できるようにする
Anthropicが「明文化したルール」を重んじるのに対し、OpenAIは「行動の汎化」を実験で示そうとした点が特徴です。
OpenAI自身の「モデル仕様書」との関係
OpenAIには「モデル仕様書(Model Spec)」という指針もあります。
2025年12月に最新版が出たもので、AIがどう振る舞うべきかを定めた文書です。
今回の研究は、こうした方針を「実際にAIへ定着させる技術」の一つと位置づけられます。
日本のユーザーや企業への影響
この研究は遠い海外の話に思えるかもしれません。
しかし、日本でAIを使う私たちにも、大きく関わってきます。
医療・法律など「間違いが許されない」現場で安心感
日本でも、医療や法律、金融の分野でAIの活用が進んでいます。
ある病院の窓口で、AIが患者さんの質問に答える場面を想像してみてください。
このとき、AIが知ったかぶりで間違った医療情報を答えたら、大変なことになります。
「分からないことは、分からないと言う」AIなら、こうした事故を防ぎやすくなります。
正直さが身についたAIは、責任の重い現場ほど価値が高まります。
日本のAI開発にも波及するか
日本でも、Sakana AI(サカナAI)のような独自のAI企業が育っています。
こうした国内勢が、今回の「少ない手本で良い性格を広げる」手法を取り入れる可能性もあります。
大量のデータがなくてもAIを正直にできるなら、開発コストをおさえたい日本企業にとっても朗報です。
つまり、安全なAIづくりのハードルが下がるかもしれないのです。
この研究の限界と今後の課題
もちろん、今回の研究ですべてが解決したわけではありません。
OpenAI自身も、いくつかの課題を正直に認めています。
- 15個のうち、どの性格が「良い行動の土台」になっているかは、まだはっきりしない
- 「良い性格とは何か」を、社会全体でどう決めるかという問題が残る
- 悪意ある追加学習への耐性テストは、まだ予備的な段階
- 長い時間が経っても性格が保たれるかは、これからの検証が必要
「何を良いとするか」は、国や文化によって考えが違います。
世界中が納得する答えを出すのは、簡単ではありません。
よくある質問(FAQ)
Q1. ハルシネーションは完全になくなるのですか?
いいえ、完全にはなくなりません。今回の研究は、AIが「分からない」と正直に言いやすくする工夫です。間違いを減らす効果は期待できますが、ゼロにする技術ではありません。
Q2. 「汎化」とは結局どういう意味ですか?
ある分野で学んだ良い行動が、教えていない別の分野にも広がることです。健康の話で正直さを学んだAIが、プログラミングでもズルをしなくなった、というのが今回の例です。
Q3. この技術は今すぐChatGPTで使えますか?
現時点では研究段階の発表です。すぐに製品へ反映されるとは限りません。ただ、今後のモデル改良に活かされていく可能性は高いと考えられます。
Q4. なぜ良い性格データを「5%」しか混ぜなかったのですか?
少しの手本でもAI全体の行動が変わるかを確かめるためです。結果として、わずか5%でも大きな効果が出ました。これは効率の良い訓練方法といえます。
Q5. 日本語のAIでも同じ効果はありますか?
研究は主に英語で行われましたが、考え方そのものは言語を問いません。日本語のAIにも応用できる可能性があります。今後の検証が待たれます。
まとめ
今回のOpenAIの研究のポイントを振り返ります。
- AIに「正直さ」や「分からないと認める力」を強化学習で教えた
- 健康など一部の分野で教えただけで、良い行動が他の分野にも広がった
- 53テスト中44テストで、ふつうのAIより良い成績を出した
- AIのハルシネーション(でっち上げ)対策の新しいカギとして注目されている
- 医療や法律など、間違いが許されない日本の現場でも価値が高い
まずは普段使っているAIに「分からないことは分からないと答えてね」と一言添えてみると、その違いを実感できるかもしれません。
参考文献
- Reinforcement learning towards broadly and persistently beneficial models(OpenAI Alignment、2026年6月18日)
- OpenAIが「分からないことを分からないと認める力」を強化学習で定着させる研究を公開(GIGAZINE、2026年6月19日)
- Why language models hallucinate(OpenAI、2025年)
- Reinforcement Learning Towards Broadly and Persistently Beneficial Models(論文PDF)
- How confessions can keep language models honest(OpenAI)

