採用AIに『身内びいき』｜同じAI履歴書が60%有利

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

2026年5月11日報道：GIGAZINEがarXiv掲載の最新論文「AI Self-preferencing in Algorithmic Hiring」を紹介し話題に
同じAIの履歴書が23〜60%有利：評価AIと同じモデルが書いた履歴書は、人が書いたものより面接候補に残りやすい
GPT-4oの偏りは82%：自分が書いた履歴書を選ぶ確率が圧倒的。LLaMA-3.3-70Bは79%、商用・OSSを問わず67〜82%という高さ
営業・経理で差が拡大：24職種を比較すると、ビジネス系職種ほど自己選好バイアスが強く出る傾向
プロンプトで半減可能：「出所を無視せよ」と指示するだけでGPT-4oは82%→30%まで低下。日本企業も対策を急ぐべき段階

「履歴書を書くAI」と「履歴書を採点するAI」が同じモデルだったら、何が起きるか想像したことはありますか？2026年5月11日に紹介された最新研究によると、答えは「あからさまに身内びいきする」。AI採用の公平性を根底から揺さぶる衝撃の発見です。

AI採用の『身内びいき』研究とは｜2026年5月の話題

arXiv論文をGIGAZINEが紹介し一気に拡散

2026年5月11日、テックメディアGIGAZINEが取り上げた論文があります。

タイトルは「AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights（AI採用における自己選好——実証的証拠と洞察）」。

著者はJiannan Xu氏、Gujie Li氏、Jane Yi Jiang氏の3人。arXivでの初公開は2025年8月、最新改訂は2026年2月で、AI倫理系の国際学会AIESにも採択されました。

研究は単なる思考実験ではなく、24職種・複数の主要LLMで実際に履歴書を作って評価させる大規模な対照実験を行っています。

調べたこと｜AIは自分が書いた履歴書を優遇するか

研究の中心的な問いはシンプルです。

「LLMは、自分が書いた内容に似たものを選びやすい性質があるのか？」

採用の現場では、応募者がChatGPTやClaudeで履歴書を磨き、企業もLLMで履歴書をスクリーニングするケースが急増しています。両側に同じAIが立つ可能性は、もう普通のことなのです。

だから「同じAIが両側にいると、応募者が有利になる/不利になるバイアスが発生するか」を測ろう——そんな実験が組まれました。

結果が衝撃的｜67〜82%の自己選好バイアス

GPT-4oは自分が書いた履歴書を82%選ぶ

もっとも目を引く数字はこれです。

同じ内容・同じ品質の履歴書を、「AIが書いた版」と「人が書いた版」で並べて評価させると、LLMは平均67〜82%の確率で、自分が書いた版を選ぶ傾向が出ました。

GPT-4o（OpenAI）：82%
LLaMA-3.3-70B（Meta）：79%
その他商用・OSSモデル：67〜82%の範囲

これだけ偏ったら、もう「公平な評価」とは呼びにくいレベルです。

同じAIを使えば面接合格率が23〜60%上昇

実務的にもっと重要なのは「結局どれくらい有利になるか」という話。

研究では24職種を対象にシミュレーションを実施。評価AIと同じモデルで履歴書を作った応募者は、同じスキル・経験を持つ人間執筆の応募者より23〜60%多く面接候補に残ったと報告されています。

「あの会社、Claudeで採点してるらしいよ。じゃあClaudeで履歴書書こう」——そんな裏技がもしバレたら、応募者はみんな同じことを始めるでしょう。

営業・経理で差が拡大、農業・自動車では小さい

職種別に見ると、興味深い濃淡があります。

強く偏る職種：営業、経理などビジネス系。文章で能力を伝える比重が大きい職種ほど、AI文体の優位性が出やすい
偏りが小さい職種：自動車整備、農業など実技寄りの職種。資格や経験など定型情報が中心で、表現力の影響が薄い

つまり「言葉で伝える仕事」ほど、AIに採点させると不公平が起きやすいということ。営業職を募集する会社は要注意です。

なぜAIは自分が書いた文を好むのか

『方言』を無意識に検知している

研究者によると、LLMには自分特有の「方言」があります。

たとえばGPT-4oは「leverage」「robust」「demonstrated」といった単語を好み、Claudeはまた違う言い回しのクセを持っている。同じ意味でも、選ぶ単語や文の組み立て方に微妙な癖が出るのです。

評価する側のAIはこのパターンを意識せずに検知し、自分の文体に似たテキストに高い点をつける——これが自己選好バイアスの正体だと考えられています。

クロスモデルでも偏りが出る

面白いのは「自分vs他者」だけでなく、モデル同士の好き嫌いもある点。

GPT-4oに2種類のAI履歴書を見せて評価させると、LLaMA-3.3-70Bが書いたものより自分（GPT-4o）の文章を45%多く選ぶ結果に。

一方で、相手がDeepSeek-V3だと逆転し、GPT-4oはDeepSeek-V3製の履歴書を39%多く選んでしまうという意外な癖も見つかりました。

AIの世界にも「相性」がある——そう聞くと不思議ですが、これは事実として観測された現象です。

過去のAI採用バイアスとの違い

アマゾン事件は『属性差別』、今回は『仲間意識』

AI採用のバイアス問題自体は新しくありません。

有名なのは2018年のアマゾン事件。同社のAI採用システムが「女性」関連の単語を含む履歴書を低評価する挙動を示し、運用停止に追い込まれました。これは性別・人種といった属性に基づく差別でした。

今回の研究が示すのはまったく違う種類のバイアスです。

従来の問題：訓練データの偏りで、属性（性別・人種など）に基づく差別が起きる
新しい問題：訓練データに偏りがなくても、AI同士が「身内」を優遇する

属性差別は監査で見つけやすい。一方、自己選好バイアスは「同じAIを使った人が有利」という構造的な偏りなので、性別や人種を見ても気付けません。検出も対策も格段に難しいのです。

類似サービス比較｜AI採用ツールの現状

日本でも採用AIの導入が進んでいます。

HireVue：米国発のAI面接ツール。動画面接をAIが評価する形式
SHIFT AI面接官：日本のSHIFT社が採用。年間5,000人規模の選考をAIで自動化する計画
Workday Skills Cloud：エンタープライズ向けのAIスキル評価
各種ATS（採用管理システム）のAI機能：履歴書スクリーニング、面接日程調整など

いずれも裏ではLLMを利用しているか、近い将来利用する見込みです。「採用側がどのモデルを使っているか」が、応募者側の戦略に直結する時代が来ています。

対策｜バイアスは半減できる

『出所を無視せよ』のひとことで激減

救いとなる発見もあります。

研究チームが試したのは、評価AIへの簡単な指示。「履歴書がAIによって書かれたか人間によって書かれたかは関係ない。内容のみで判断せよ」と促すプロンプトを追加したのです。

結果はこうでした。

GPT-4o：自己選好バイアス82%→30%へ低下
その他モデル：17〜63%の幅でバイアスが減少

完全になくなるわけではないものの、たった1文の追加で半分以上は緩和できる。これは採用システムを運用する企業にとって朗報です。

複数モデルでクロスチェックする

もう一つの実践的な対策は「採点に複数のAIを使う」こと。

1つのモデル（例：GPT-4o）だけで採点していると、自己選好バイアスの被害をモロに受けます。これを2〜3種類のモデル（GPT-4o、Claude、Geminiなど）でそれぞれ採点し、結果を平均すれば、偏りが分散します。

コストは増えますが、公平性の観点では極めて有効。AI採用システムを設計する企業は、こうした多重採点アーキテクチャを検討する価値があります。

日本企業・応募者への影響

採用担当者がすぐ確認すべき3つのこと

日本でも約30%の大企業が採用にAIを導入済みまたは導入予定（2025年調査）。採用担当者が今すぐ確認すべきポイントはこの3つです。

使っているAIモデルを把握する：採用ベンダー任せにせず、内部で何が動いているか聞く
自己選好バイアス対策プロンプトを入れる：シンプルに「出所を考慮しない」と書くだけで効果あり
最終判断は必ず人間が行う：AIの推薦を鵜呑みにせず、Top候補を人事担当者が精査するワークフローを維持

日本にはAI事業者ガイドライン1.01（2024年11月）もあり、人の尊厳とリスク管理が強調されています。今回の研究は、その指針に従う上での具体的な参考材料になります。

就活生・転職者は『盤面読み』の時代に

応募者側の影響も無視できません。

ある中小企業で営業職を応募するAさんを想像してください。Aさんは「企業がClaudeを使っているらしい」と聞いて、自分の履歴書もClaudeで磨いて提出。一方、Bさんは「ChatGPTで書きました」とアピール。同じ企業で評価が分かれた——こんな話が現実になります。

「企業がどのAIを使っているか」を読む盤面読みスキルが、就活術の一部になりつつあります。といっても、企業が公開しないケースが多いので、応募者にできるのは結局「人が読んでも自然な文章を書く」基本に立ち戻ることでしょう。

人事SaaS業界に新ジャンル『バイアス監査』

サービス側にも波及があります。すでに海外では、AI採用システムのバイアス監査サービスを提供するスタートアップが立ち上がりつつあります。

日本でも今後、人事Tech企業が「自社AIは自己選好バイアスを抑制している」という認定マーク的なものを打ち出してくる可能性があります。ユーザー企業から見ると、ベンダー選定基準が増えることになります。

よくある質問（FAQ）

Q. 自分の履歴書をAIで書くのはダメということですか？

A. 「ダメ」ではありませんが、企業がどのAIを使うか分からない以上、過度な依存は避けるのが無難です。

研究で示されたのは「同じAIを使えば有利」「違うAIを使えば不利」という両刃の剣。企業がDeepSeek系を使っているのに自分はGPT-4oで履歴書を書いた、というケースでは逆効果になる可能性もあります。AIに手伝ってもらうのはOK、ただし丸投げせず自分の言葉で仕上げるのがおすすめです。

Q. 採用システム提供企業はこの問題を知っているのですか？

A. 大手ベンダーは認識し始めていますが、対応はまちまちです。

米国のHireVueやWorkdayなどは、すでにバイアス監査の仕組みを宣伝しています。一方、中小ベンダーや国産ツールはまだこの問題への対応が手薄なケースも。企業がAI採用ツールを選ぶ際は、「自己選好バイアスへの対策」を質問項目に加えることをおすすめします。

Q. 23〜60%という数字はどれくらい深刻ですか？

A. 採用統計の世界では『極めて深刻』なレベルです。

米国の労働法では「異なる属性間で選考通過率に大きな差があると、差別の疑い」と判断する基準があります（4/5ルール=20%差で要警戒）。今回の23〜60%という差は、これを大きく上回ります。裁判沙汰になっても不思議でない水準と理解しておくべきです。

Q. AIモデルがバージョンアップしたらこの問題は解決しますか？

A. 自動的には解決しません。むしろ強化される可能性もあります。

自己選好バイアスはモデル本体の「方言」に起因するため、新バージョンに置き換えても根本的にはなくなりません。むしろ高度なモデルほど、自分の文体の癖をより精密に検知できる可能性もあります。運用側の対策（プロンプト工夫・多重採点）が引き続き重要です。

Q. オープンソースのモデルなら大丈夫ですか？

A. いいえ、OSSモデルも同じ問題を抱えています。

研究ではLLaMA-3.3-70Bでも79%という商用モデル並みの自己選好バイアスが観測されました。OSSか商用かではなく、対策プロンプトを入れているかどうかが分かれ目です。

Q. 日本のAI事業者ガイドラインはこの問題に対応していますか？

A. 直接的な言及はまだ薄いですが、リスク管理の枠組みでカバーすることは可能です。

AI事業者ガイドライン1.01では「公平性」「説明責任」「人の尊厳」が原則として掲げられています。自己選好バイアスは公平性原則に明確に違反するため、企業として対策する責任があると解釈されます。今後、関連通達やガイドライン改訂で具体的な言及が出てくる可能性が高いです。

まとめ

2026年5月11日：GIGAZINEがarXiv論文「AI Self-preferencing in Algorithmic Hiring」を紹介、Jiannan Xu氏らの大規模実験結果
バイアスの強さ：商用・OSSモデルで67〜82%。GPT-4oは82%、LLaMA-3.3-70Bは79%という高さ
実務への影響：評価AIと同じモデルを使った応募者は、人間執筆より23〜60%多く面接候補に残る
職種差：営業・経理などビジネス系で偏り大、自動車・農業では小さい
原因：LLMが持つ「方言」（独特の語彙・言い回し）をAI自身が無意識に検知している
緩和策：「出所を考慮するな」というプロンプトでGPT-4oは82%→30%まで低下
属性差別とは別問題：訓練データの偏りでなく、同じAIを使った人だけが有利になる構造的バイアス
日本企業への提言：採用AIのモデルを把握、対策プロンプトを導入、最終判断は人間が行う三段構え