AIに「専門家」と伝えると精度が3.6%落ちる理由

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • USC研究:AIに「熟練プログラマー」と伝えると、コーディング・数学の精度がかえって低下することが実験で判明
  • MMLU精度低下:専門家ペルソナを使うと71.6%→68.0%(3.6ポイントダウン
  • タスク依存の二面性:コーディング・数学は悪化、安全性・ライティングは最大+17.7ポイント改善
  • メカニズム:ペルソナ指示がAIを「指示追従モード」に切り替え、事実の引き出しを妨げる
  • 解決策PRISM:タスクに応じてペルソナの使用・不使用を自動判断する新手法が登場

「あなたはプロのエンジニアです」「あなたは10年以上の経験を持つ専門家です」——こんなプロンプトを試したことはありませんか?

AIをうまく使いこなしたい人の間で広まっている「専門家ペルソナ」のテクニックが、実はコーディングや数学では逆効果だったことが、南カリフォルニア大学(USC)の研究で明らかになりました。

2026年3月に公開されたこの論文は、世界中のAI利用者に衝撃を与えています。

USC研究が明らかにした衝撃の数字

MMLUで3.6ポイント低下——71.6%→68.0%の厳しい結果

南カリフォルニア大学のZizhao Hu、Mohammad Rostami、Jesse Thomasonの3名は、AIへの専門家ペルソナ指定が実際に性能を向上させるかどうかを、複数のベンチマークで徹底的に検証しました。

MMLU(AIの知識・推論力を測る代表的なベンチマーク)で、専門家ペルソナを使った場合の精度は71.6%→68.0%——3.6ポイントの低下という結果が出ました。

3.6ポイントという数字は小さく見えるかもしれません。しかし、何百万人もの人が毎日AIに「専門家のつもりで答えて」と伝えているとしたら、その影響はとても大きいものです。

コーディング・数学は悪化、安全性は+17.7ポイントの改善

重要なのは、ペルソナの効果がタスクの種類によって正反対になるという点です。

MT-Bench(AIの会話品質を測る指標)での結果を見ると、ライティング・役割演技・推論・情報抽出といったカテゴリでは専門家ペルソナで改善が見られました。ところがコーディング・数学・人文科学では品質が低下しました。

一方、JailbreakBench(AIの安全性テスト)では「Safety Monitor(安全監視の専門家)」というペルソナを使うと、有害な指示を断る確率が+17.7ポイントも改善しました。

つまり、ペルソナ指定は「万能の改善策」ではなく、使い所によって薬にも毒にもなるテクニックだったのです。

なぜ逆効果が起きるのか——AIの「モード切替」現象

指示追従モードが事実の引き出しを妨げる

「なぜ専門家と伝えると精度が落ちるのか?」——この疑問に対して、研究チームは明確な説明を示しています。

AIに「あなたは専門家です」と伝えると、AIは「指示追従モード」に切り替わります。つまり、専門家らしいトーンや文体を出すことを優先してしまい、実際の知識を引き出す能力が後回しになるのです。

ちょうど「この件は専門家のように振る舞ってください」と言われた人が、知識を披露するより「専門家らしく見せること」に意識が向いてしまうような状態です。

「専門家と呼んでも知識は増えない」根本的な理由

もう一つの根本的な問題があります。

AIに「あなたは専門家です」と伝えても、AIの持つ知識量は1ビットも増えないのです。

AIが持つ知識は、学習データによって決まっています。「専門家」と呼ぶことで学習データが書き変わるわけではありません。むしろ、ペルソナの指示が新しいノイズとなって、すでに持っている事実を正確に引き出す邪魔をしてしまう——これが研究チームの結論です。

コーディングや数学のような「正確な知識の引き出し」が必要なタスクでは、この悪影響が顕著に現れます。一方、ライティングや役割演技のように「振る舞い・スタイル」が重要なタスクでは、ペルソナ指示が有効に働くというわけです。

実験の詳細——6モデルで徹底検証した方法

研究では、Llama-3.1-8BやQwen2.5-7Bを含む6種類のAIモデルを対象に実験が行われました。

プロンプトは主に2種類。「あなたはソフトウェアエンジニアです」のようなシンプルなペルソナ指定と、専門的な経歴や能力を詳細に記述した複雑なペルソナ指定です。

評価には3つのベンチマークが使われました。

  • MMLU:知識・推論力の多角的テスト(57分野にわたる問題)
  • MT-Bench:ライティング・コーディング・数学など8カテゴリの会話品質テスト
  • JailbreakBench:有害な指示を断れるかどうかの安全性テスト

複数のモデルと複数のベンチマークで一貫して同じ傾向が見られた点が、この研究の説得力を高めています。

PRISM——逆効果を解決する次世代アプローチ

「いつペルソナを使うか」をAI自身が判断する

問題を発見しただけでなく、研究チームは解決策も提案しています。それがPRISM(Persona Routing via Intent-based Self-Modeling)です。

PRISMの仕組みはシンプルです。AIが質問に対して「ペルソナあり」「ペルソナなし」の2つの回答を生成し、どちらが優れているかを自己評価して最良の回答を返します。

これにより、コーディングや数学のような知識依存タスクでは自動的にペルソナを外し、安全性やライティングのようなアラインメント依存タスクではペルソナを活用する——というスマートな切り替えが実現します。

外部データ不要・追加コストほぼゼロで実現

PRISMの実装には、gated LoRA(軽量な追加学習モジュール)が使われています。

特別なデータセットも、別のAIモデルも必要ありません。既存のモデルに小さな仕組みを追加するだけで動作します。MT-Benchでの総合スコアは1〜2ポイント向上しながら、知識タスクの精度低下を防ぐことにも成功しています。

論文は2026年3月19日にarXivで公開されており、実装の詳細も公開されています。

他のプロンプト手法との比較

有効なのはどのテクニックか

では、専門家ペルソナの代わりに何を使えばいいのでしょうか。現在の研究で効果が確認されている主要なプロンプト手法を整理します。

  • Chain-of-Thought(CoT)プロンプト:「ステップごとに考えてください」と指示する手法。数学・コーディングで高い効果あり。ペルソナと異なり、思考プロセスそのものをガイドするため事実想起を妨げない
  • Few-shot プロンプト:具体的な例を2〜3個見せる手法。「どう答えるべきか」のパターンを直接示せるため、ペルソナより確実
  • 具体的な要件の明示:「Python 3.11で、エラーハンドリングを含めて書いてください」のように要件を詳しく伝える方が、「あなたはPythonの専門家です」より効果的と研究は示す

研究が勧めるのは「誰として振る舞うか」ではなく「何を・どのように出力するか」を具体的に伝えること。コーディングや数学については、ペルソナより要件の具体化が圧倒的に有効です。

ペルソナが有効なのはどんな場面か

この研究を誤解しないように注意が必要です。「AIにペルソナを与えてはいけない」という話ではありません。

有効な場面は明確です。

  • 安全性・倫理の強化:「責任ある安全審査の専門家として」という指示は有害コンテンツの拒否率を大幅に高める
  • ライティングスタイルの調整:「ジャーナリストとして」「小学生に教えるように」などはトーンや文体の調整に有効
  • 役割演技・シミュレーション:ゲームや教育コンテンツでのキャラクター設定

要するに、「知識を正確に引き出す」タスクにはペルソナは不向き、「振る舞い・スタイルを調整する」タスクには有効というのが今回の研究の核心です。

日本のAI利用者が今すぐ変えるべき習慣

多くの人が無意識にやっている「逆効果プロンプト」

この研究結果は、日本のAI利用者にとっても他人事ではありません。

例えば、業務でよく見かけるこんなプロンプトはどうでしょうか。

「あなたはプロのプログラマーです。以下のコードのバグを修正してください。」

善意でつけているこの一文が、実はコード修正の精度を下げている可能性があります。研究結果に従うなら、

「以下のPythonコードのバグを修正してください。エラーは○○です。修正箇所を説明した後、修正済みコードを出力してください。」

のように、ペルソナではなく具体的な要件を伝える方が効果的です。

日本企業のAI活用への影響——無駄なプロンプトを削れる

企業のAI活用担当者にとって、この研究には実用的なメリットもあります。

多くの企業がシステムプロンプトに「あなたは〇〇の専門家です」という一文を入れています。この研究の結果を踏まえると、コーディングや数学・分析系のタスクではこの一文を削除するだけで精度が改善する可能性があります。

また、AIに大量の指示を与えている企業では、ペルソナ指定を外すことでトークン数が減りコスト削減にもつながります。

日本の大手SIerや、AIを業務に組み込んでいるSaaS企業にとって、今回の研究は「システムプロンプトの棚卸し」をする絶好のタイミングと言えます。

よくある質問(FAQ)

Q. 「あなたは専門家です」は完全に使わない方がいい?

A. タスクによります。コーディング・数学・知識問題では使わない方が精度が上がります。ライティングスタイルの調整や安全性を高めたい場面、役割演技が必要な場面では引き続き有効です。「すべて禁止」ではなく「使い所を選ぶ」が正解です。

Q. ChatGPT・Claude・Geminiでも同じ結果になる?

A. 今回の研究はLlama・Qwenなどのオープンソースモデルを中心に検証されています。ChatGPT(GPT-4系)やClaude・Geminiなどの大規模商用モデルでも同様の傾向は報告されていますが、モデルによって影響度は異なります。ただし「ペルソナが知識タスクに干渉する」という根本的なメカニズムはモデル共通と考えられています。

Q. ペルソナより効果的なコーディングのプロンプト方法は?

A. 研究が示す効果的な代替手法は3つです。①Chain-of-Thought(「ステップごとに考えて」)、②具体的な要件の明示(言語・バージョン・出力形式)、③Few-shot(例を2〜3件見せる)。「専門家として振る舞って」より「こういう形式で出力して」が有効です。

Q. PRISMはいつ一般利用できるようになる?

A. 論文は2026年3月にarXivで公開済みで、実装も公開されています。ただし、現時点では研究段階のプロトタイプです。ChatGPT・ClaudeなどのプロダクトにPRISMが搭載される公式発表はまだありません。一方で、この研究がAI各社のモデル開発に影響を与え、将来的に「自動ペルソナ最適化」機能として実装される可能性はあります。

Q. 日本語のプロンプトでも同じ効果が出る?

A. 研究は英語での実験が中心です。ただし、今回の研究が示すメカニズム(ペルソナ指定が指示追従モードを活性化する)は言語に依存しない根本的な仕組みのため、日本語でも同様の傾向が起きると考えられます。日本語AIシステムを運用している企業は、試しにシステムプロンプトからペルソナ指定を外してA/Bテストを行う価値があります。

まとめ

  • USC研究(2026年3月):AIへの専門家ペルソナ指定がコーディング・数学では精度を低下させることを実験で実証
  • MMLUで3.6ポイント低下:71.6%→68.0%——専門家ペルソナの使用で知識タスクの精度が悪化
  • タスク依存の二面性:安全性は+17.7ポイント改善、コーディング・数学は低下という正反対の結果
  • 原因は「モード切替」:ペルソナ指示がAIを指示追従モードに切り替え、事実の引き出しを妨げる
  • 解決策はPRISM:タスクに応じてペルソナ使用を自動判断する新手法で1〜2ポイント改善
  • 代替手法:コーディング・数学にはChain-of-Thought・具体的な要件明示・Few-shotが有効
  • 日本企業への影響:システムプロンプトのペルソナ指定を見直すだけで精度改善・コスト削減の可能性

今日からできること:まず自分がよく使うAIプロンプトを見直してみましょう。コーディング・数学・調査系のタスクで「あなたは専門家です」という一文を外して、「具体的な要件」を代わりに入れてみてください。研究が示す通り、それだけで答えの質が上がるかもしれません。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です