AI捏造参考文献が3年で12倍｜医学論文277本に1本の衝撃

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

コロンビア大学が250万件の生物医学論文を監査し、2810本に4046個の架空の参考文献を発見
2023年は2828本に1本だった偽引用が、2026年は277本に1本まで急増（約12倍）
増加の転換点は2024年中頃、ChatGPTなど生成AIの普及時期と一致
偽引用入り論文の一部はすでに診療ガイドラインやレビュー論文に引用済み
研究者はElicitやConsensusなどRAG型ツールで予防可能、出版社側にも検証義務が問われる

あなたが読んでいる医学論文の参考文献、本当にその論文は存在していますか。実は2026年の生物医学論文では、277本に1本が「存在しないはずの引用」を含んでいることが最新の監査で判明しました。本記事では、コロンビア大学の大規模調査の中身と、日本の医療現場・研究者・読者への影響、今すぐできる対策まで整理します。

何が起きた？3年で12倍に急増した「偽引用」

250万件の論文を機械監査した結果

コロンビア大学看護学部のマキシム・トパーズ准教授らのチームが、医学誌「ランセット（The Lancet）」で衝撃的な調査結果を発表しました。

対象はPubMed Central（パブメドセントラル：世界最大の医学論文データベース）に収録された約250万件の論文。

期間は2023年1月から2026年2月までの3年余りです。

研究チームは約9700万件の引用文献をAIで自動検証しました。

その結果、2810本の論文に合計4046個の「実在しない参考文献」が含まれていることが判明しました。

急増のカーブが描く不気味な軌跡

もっとも衝撃的なのは増加スピードです。

2023年：2828本に1本（偽引用率 0.035%）
2025年：458本に1本（偽引用率 0.22%）
2026年最初の7週間：277本に1本（偽引用率 0.36%）

3年で偽引用率は10倍以上、絶対数では12倍超に膨らみました。

増加が急加速したのは2024年中頃。これはChatGPTやClaudeなど生成AIが研究現場で広く使われ始めた時期とぴたり一致します。

なぜAIは「ありそうで存在しない論文」を作るのか

ハルシネーションという病

AIが事実と異なる情報をもっともらしく出力する現象をハルシネーション（幻覚）と呼びます。

大規模言語モデル（LLM：人間みたいに文章を書けるAI）は、訓練データの中で「よく一緒に出てくる単語のパターン」を学習しています。

そのため、参考文献を求められると「それっぽい著者名」「それっぽいジャーナル名」「それっぽい巻号・ページ番号」を組み立ててしまうのです。

実際、2023年の別の調査では、ChatGPT-3.5が生成した医療コンテンツの参考文献115件のうち47%が完全な捏造、46%は実在するが情報が不正確、正確だったのはわずか7%でした。

DOIがあっても安心できない仕組み

研究チームの検出方法は巧妙でした。

引用文献に付されたDOI（デジタル・オブジェクト識別子）やPubMed IDを実際にたどり、そのリンク先論文のタイトルと引用元に書かれたタイトルが一致するかを照合したのです。

不一致を検出した候補は、さらにClaude 3.5 HaikuというLLMで二次チェック。Google Scholar、Crossref、OpenAlexの3つの学術データベースともクロスリファレンスを行い、誤検出を最小化しました。

つまり、ID番号があっても中身が違う「ニセモノの引用」が大量に紛れ込んでいたわけです。

何が怖いのか：診療ガイドラインへの汚染

「証拠の連鎖」が崩れる

医学研究は「証拠の連鎖（チェーン・オブ・エビデンス）」で発展します。

ある論文の結論は、引用された別の論文の結論を土台にしています。その別の論文も、さらに別の論文を参照しています。

つまり、底に偽引用が混じると、その上に積み上がる研究すべてが砂上の楼閣になりかねません。

調査では実際に、30件の参考文献のうち18件が偽造という極端な論文も見つかりました。さらに恐ろしいことに、その偽引用の一部はシステマティックレビュー（複数論文を統合した総説）や臨床ガイドラインに二次引用されていたのです。

患者の治療判断に影響する可能性

診療ガイドラインは医師が日常の治療方針を決める道しるべです。

そこに「存在しない研究結果」が紛れ込めば、誤った投薬量や治療法が標準として広まるリスクがある。これは机上の話ではなく、患者の予後に直結する問題です。

査読（ピアレビュー）と呼ばれる専門家チェックも、引用文献の実在まで一件ずつ確認するのが慣例ではありません。チェック体制の空白を、AIの自動生成が突いた形です。

日本市場・日本人読者にとっての意味

国内研究者にも他人事ではない

調査対象はPubMed Centralですが、日本人研究者の英語論文も多数含まれます。

2025年には日経新聞が「コロンビア大学を含む8カ国14機関の論文17本に、査読AIをだます隠しプロンプトが埋め込まれていた」と報じ、日本でも研究倫理の議論が広がりました。

大学や病院が論文業績を昇進や予算配分の指標にする以上、「楽をしたい誘惑」と「不正の温床」は背中合わせです。

医療情報を読む一般読者への影響

SNSやニュースサイトには「○○大学の研究によれば」という見出しが日々流れています。

その元論文が偽引用を含んでいれば、読者が信じている健康情報そのものが揺らぐ可能性があります。

たとえば「サプリAは効果的」という記事の根拠論文が、実在しない研究を引用していたケース。これが2026年の私たちの情報環境の現実です。

厚生労働省や日本医学会も、AI時代の研究倫理ガイドラインの整備を急いでいます。

対策：執筆者・出版社・読者ができること

研究者向け：RAG型ツールに切り替える

論文執筆の補助にAIを使うなら、RAG（検索拡張生成）という仕組みのツールが安全です。

これはAIが文章を生成する前に、実在の論文データベースから関連文献を取り寄せ、その内容に基づいて回答する仕組みです。

ツール	特徴	カバー範囲
Elicit	1億2500万件超の論文から構造化抽出	幅広い学術分野
Consensus	引用は公開済み論文のみに制限。Yes/No可視化メーター搭載	医学・健康・社会科学
Semantic Scholar	学術メタデータ検索特化	幅広い学術分野
NotebookLM	アップロードした自分の資料のみを参照	ユーザー指定資料

これらは「指定したデータベースに実在する論文しか引用しない」設計のため、ハルシネーション率が一般的なチャットボットより大幅に低くなります。

ChatGPTやClaudeを使う場合も、生成された引用は必ずDOIで実物を確認する習慣をつけましょう。

出版社・査読者向け：自動検証の導入

ランセットのチームが使った検証システム（通称CITADEL）は、出版社側でも導入可能です。

具体的には次の3点を投稿時に自動チェックします。

引用に書かれたタイトルと、DOI先の実際のタイトルが一致するか
著者名・ジャーナル名・巻号ページが整合するか
該当論文が複数の学術データベースに存在するか

研究倫理データベースで偽引用を体系的に追跡し、論文撤回（リトラクション）の判断に役立てる動きも始まっています。

一般読者向け：3つの自衛策

専門外の読者でも、健康情報を扱う際の最低限の自衛策があります。

一次情報を確認：「研究によれば」の引用先を1クリックで開けるかチェック
複数ソースで裏取り：同じ主張が独立した複数の論文・記事で確認できるか
診療ガイドラインを優先：個別論文より、学会が監修したガイドラインを信頼する

他のAI不正・倫理問題との比較

「隠しプロンプト」事件との関連

2025年に話題になった「論文への隠しプロンプト埋め込み」問題は、AIによる査読を意図的にだます手口でした。今回の偽引用問題は、意図的な不正ではなく、AIを使った執筆プロセスの副作用として偽引用が混入する点で性質が異なります。

しかし、両者に共通するのは「査読システムが生成AI時代に追いついていない」という根本問題です。

NeurIPS論文100本の事例

AI研究のトップ会議であるNeurIPS 2025でも、査読を通過した論文の約1%（53本）に合計100件のAI捏造引用が含まれていたと報告されています。専門家3〜5人がチェックする厳格な査読プロセスでも見抜けない実情が浮き彫りになりました。

生物医学だけでなく、AI・コンピュータサイエンス分野でも同じ汚染が起きているわけです。

よくある質問（FAQ）

Q1. なぜAIは存在しない論文を引用するのですか？

LLMは「正解を知っている」のではなく「次に来そうな単語を予測する」仕組みで動いています。参考文献を求められると、訓練データの中で「医学論文っぽい文字列の組み合わせ」を生成しがちで、その結果として実在しない著者・タイトル・ジャーナル名の組み合わせが出てきてしまいます。

Q2. 査読を通った論文でも信用できないのですか？

査読は内容の妥当性をチェックする仕組みですが、引用文献を1件ずつDOIで開いて実在確認することは現状ほぼ行われていません。今回の調査で査読済み論文でも277本に1本に偽引用が発見されたのはこの抜け穴が原因です。出版社側の自動検証導入が急がれています。

Q3. 私が読んでいる健康記事に偽引用が含まれている可能性は？

2026年時点では生物医学論文の0.36%（約280本に1本）が偽引用を含むと報告されています。ただし、その偽引用が二次引用されて広まると影響は数倍に拡大します。健康情報を読むときは「研究によれば」の元論文リンクをクリックして実在確認するのが安全です。

Q4. AIを使って論文を書くこと自体が問題なのですか？

AIを使うこと自体は問題ではなく、生成された引用をそのまま信じて確認を怠ることが問題です。RAG型ツール（Elicit、Consensusなど）を使えばハルシネーションのリスクは大幅に下がります。執筆補助としてAIを使い、引用は人間が最終確認するワークフローが推奨されます。

Q5. 日本の研究者・大学はどう対応すべきですか？

文部科学省や日本学術会議は、AI時代の研究倫理ガイドライン策定を進めています。各大学の研究公正室や図書館では、RAG型ツールの導入支援や、引用チェックツールの整備が進みつつあります。学会発表・論文投稿前のセルフチェックとして、ZoteroやEndNoteなどの文献管理ソフトで全引用のDOIを確認するのも有効です。