OpenAI、AIに「正直さ」を訓練|嘘を減らす新研究

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • OpenAIが2026年6月18日に「AIに正直さを教える」新しい研究を公開しました
  • AIが知らないことを「分かりません」と認める力を、強化学習で身につけさせる試みです
  • 医療分野だけで訓練したAIが、まったく関係ない分野でも誠実になるという驚きの結果が出ました
  • 53個のテストのうち44個(約83%)で行動が改善し、平均で9ポイント以上良くなりました
  • 日本でも金融庁がAIの「嘘」に注意を呼びかけており、この研究は企業利用の安心感につながります

AIに質問したら、いかにも本当らしい嘘の答えが返ってきた──そんな経験はありませんか。これは「ハルシネーション」と呼ばれる、生成AIの一番やっかいな弱点です。OpenAIはこの問題に正面から取り組み、AIに「正直さ」そのものを教える研究を発表しました。何がすごいのか、私たちの生活はどう変わるのか、やさしく解説します。

OpenAIが公開した「誠実なAI」研究とは

2026年6月18日、OpenAIが新しい研究論文を公開しました。

タイトルは「Reinforcement learning towards broadly and persistently beneficial models(広く長く役立つAIモデルへの強化学習)」です。

ひとことで言うと、AIに「人として望ましい性質」を学習させる試みです。

その中心にあるのが「正直さ」と「分からないことは分からないと認める力」です。

研究チームは、正直さ・謙虚さ・訂正を受け入れる柔軟さなど、複数の良い性質をAIに教え込みました。報道では、こうした性質は15種類ほど設定されたと伝えられています。

論文を書いたのは、OpenAIのAkshay Jagadeeshさんらの研究チームです。

なぜAIは「分かりません」と言えず嘘をつくのか

そもそも、なぜAIは知らないことまで答えてしまうのでしょうか。

原因は、AIの「育て方」にあります。

これまでのAIは、テストで良い点を取るように訓練されてきました。学校のテストを想像してみてください。

分からない問題でも、空欄にするより当てずっぽうで書いたほうが、たまに正解して点が上がります。

AIも「とりあえず答えたほうが得」と学んでしまったのです。

その結果、「分かりません」と正直に言うより、自信たっぷりに嘘をつくAIができあがりました。

OpenAIは以前から、この「推測が報われる仕組み」こそがハルシネーションの根っこだと指摘してきました。今回の研究は、その解決策を探る続編にあたります。

どうやってAIに正直さを教えたのか

では、どうやって正直さを教えたのでしょうか。

ポイントは「抽象的なルールを押しつけない」ことでした。

「正直でいなさい」とだけ言われても、人間でも困ってしまいますよね。

そこで研究チームは、具体的な会話の場面を山ほど用意しました。

医療・教育・科学・法律・工学・経済など、12の分野にわたる会話セットです。

それぞれに「こう答えるのが望ましい」「こういう失敗は避ける」という採点基準をつけました。

たとえば医療の相談で、AIが確証のない診断を断言するのは「避けるべき失敗」です。代わりに「専門医に相談してください」と誠実に伝えるのが「望ましい答え」になります。

こうした手本を、強化学習(良い行動にごほうびを与えて覚えさせる方法)で繰り返し学ばせました。

面白いのは、この特別な訓練データは全体のごく一部だったことです。報道によると、普通のデータが95%、正直さの訓練データはわずか5%ほどでした。

驚きの成果:1分野の学習が全体に波及した

この研究で最も驚かされるのは、その効果の「広がり方」です。

関係ない分野まで誠実になった

研究チームは、医療分野だけでAIを訓練してみました。

すると、医療とまったく関係ないプログラミングの分野でも、AIの行動が改善したのです。

正直さという性質が、教えていない場所にまでしみ出していったイメージです。

全体では、53個のテスト(社内・社外を含む)のうち44個で結果が良くなりました。割合にすると約83%です。

平均すると、9ポイント以上のスコア改善が見られました。

圧力をかけても崩れにくい

もう一つの成果は「しぶとさ」です。

意地悪な指示や、悪い影響を与える追加学習を受けても、誠実さを学んだAIはスコアの下がり方が小さくなりました。

ただし、ガチガチに頑固になったわけではありません。

正当なお願いにはちゃんと従う、選択的な崩れにくさを身につけたのです。

OpenAI自身は、これを「初期段階の実証」と慎重に位置づけています。完成形ではなく、最初の一歩というわけです。

他社との違い:AnthropicやGoogleの誠実性アプローチ

「AIを正直にする」取り組みは、OpenAIだけのものではありません。

ライバル各社も、それぞれの方法で同じ課題に挑んでいます。

Anthropic(Claudeの開発元)は、「Constitutional AI(憲法AI)」という手法が有名です。

AIにあらかじめ「憲法」のような行動指針を与え、その中で「分からないことは正直に認める」よう促します。

2026年にはこの憲法を大幅に拡張し、文章量を約8倍に増やしました。

使う側の工夫として、「分からなければ分からないと言ってよい」と指示するだけで嘘が大きく減る、とも案内しています。

一方のGoogleや他社も、回答に出典を添えさせたり、確信度を示させたりする方向で改善を進めています。

こうして見ると、各社のアプローチには違いがあります。

  • OpenAI:強化学習で「正直さ」という性質そのものを内面化させる
  • Anthropic:「憲法」という明文ルールで行動を方向づける
  • Google:出典や確信度を示して、ユーザーが検証しやすくする

今回のOpenAIの研究が新しいのは、一部の分野で教えた誠実さが、全体に波及すると示した点です。

日本のユーザー・企業にとって何が変わるのか

この研究は、海の向こうの話に聞こえるかもしれません。

でも、日本の私たちにも深く関わってきます。

日本では今、企業がAIを業務に取り入れる動きが急速に進んでいます。

そこで問題になっているのが、まさにこのハルシネーションです。

ある会社の例を考えてみましょう。社員が会議資料を作るためにAIで調べ物をしました。ところが、AIが出した「統計データ」が実在しないものだったのです。

そのまま資料に載せれば、経営判断を誤りかねません。こうした事故は、すでに各地で起きています。

日本の金融庁も、この問題を重く見ています。

2026年3月に公表した「AIディスカッションペーパー」で、ハルシネーションのリスクを明記し、金融機関にAIの管理体制を整えるよう求めました。

つまり、AIが「分かりません」と正直に言えるようになることは、日本企業が安心してAIを使う前提になります。

今回のOpenAIの研究は、その土台を一歩前に進めるものだと言えます。

よくある質問(FAQ)

Q1. ハルシネーションとは何ですか?

AIが事実に基づかない情報を、いかにも本当らしく自信満々に作り出してしまう現象です。「AIが幻覚を見ている」ように見えることから、こう呼ばれます。

Q2. この研究で、AIはもう嘘をつかなくなりますか?

いいえ、完全にはなくなりません。OpenAI自身も「初期段階の実証」と位置づけています。改善は見られますが、AIの答えを人間が確認する習慣はこれからも大切です。

Q3. なぜ「医療だけ」教えたのに他の分野も良くなったのですか?

正直さや謙虚さという性質が、特定の知識ではなく「考え方の姿勢」として身についたためと考えられます。だから教えていない分野にも波及したのです。

Q4. 私たちが普段AIを使うときにできる対策はありますか?

あります。「分からなければ分からないと答えて」と指示したり、「出典を示して」と頼んだりするだけで、誤情報は減らせます。重要な内容は必ず自分でも確認しましょう。

Q5. この技術はいつ製品に入りますか?

具体的な時期は未発表です。ただし研究で得られた知見は、今後のChatGPTなどの改良に少しずつ反映されていくと見られます。

まとめ

今回のポイントを振り返ります。

  • OpenAIが2026年6月、AIに「正直さ」を教える研究を公開した
  • 知らないことを「分かりません」と認める力を、強化学習で身につけさせた
  • 医療だけで訓練したAIが、無関係な分野でも誠実になった
  • 53テスト中44個で改善し、平均9ポイント以上スコアが向上した
  • 日本でも金融庁がAIの嘘に注意を促しており、企業利用の安心感に直結する

AIが「正直に分からないと言える」未来は、私たちが安心してAIを頼れる未来でもあります。まずは身近なAIに「分からなければそう答えて」と一言添えることから始めてみませんか。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です