AIが救急医師を超えた｜ハーバード実証67%正診

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube

ハーバード×Stanford合同研究：OpenAI o1が76人の実際の救急患者で67.1%正診、専門医2人の50〜55%を超えた（Science誌掲載）
与えた情報は最小限：電子カルテ＋看護師のフリーテキストメモだけ、画像なし・診察なし
データが増えると差が拡大：情報が豊富になると正診率82%（医師：70〜79%）、治療計画では89% vs 医師34%
3ステージ全てで医師を上回る：初期トリアージ・ER診察・入院判断の全フェーズで専門医をアウトパフォーム
限界あり、過信禁物：テキスト限定（画像・音声未対応）、AIの置き換えではなく「第二の目」として活用が前提

「AIが医師の診断を上回った」——そんなニュースが2026年4月30日、世界中を駆け巡りました。ハーバード大学の研究チームが実際の救急患者76人で実証した結果は、医療AIの可能性と限界を改めて問い直す歴史的な一歩です。

何が起きたか｜Science誌掲載のハーバード研究

実際の救急患者76人で実施した本物の実験

この研究はボストンのBeth Israel Deaconess Medical Center（ハーバード医学部関連病院）の救急部門で行われました。

2026年4月30日、ハーバード×スタンフォード合同チームがScience誌に論文を発表。OpenAIのo1モデルを、実際に救急外来を受診した76人の患者データで検証しました。

比較相手は本物の専門医2人。同じ患者情報を渡して、どちらがより正確な診断を下せるか。審査員も、AIと人間のどちらが書いた診断かを知らない「盲検」方式で評価しました。

結果：初期トリアージで67.1% vs 医師50〜55%

o1モデルの正診率（完全一致またはほぼ一致）は67.1%。専門医2人はそれぞれ55.3%と50.0%でした。

つまり、患者10人いたら、AIは約7人正しく診断し、医師は5〜5.5人にとどまる計算です。

さらに、情報が増えるほど差は維持されます。ER内での診察段階、入院判断段階でも、o1は専門医を2〜10ポイント上回り続けました。

数字を読み解く｜67%・82%・89%が意味すること

3つのステージと驚異の数字

研究では患者情報を3段階に分けて与えました。

第1ステージ（初期トリアージ）：電子カルテ＋看護師の短いメモだけ → o1が67.1%、医師が50〜55%

第2ステージ（より詳しい情報あり）：追加の検査結果も提供 → o1が82%、医師が70〜79%（この段階での差は統計的に有意ではありませんでした）

第3ステージ（治療計画）：New England Journal of Medicine掲載の複雑な臨床事例5件 × 医師46人との比較 → o1が89%、医師が34%

治療計画の場面では約2.6倍の差です。これは単なる診断精度を超えた、「どう治療するか」という判断力の比較です。

「わずかなテキスト情報」での成果が意義深い

注目すべきは、与えた情報の少なさです。

医師が患者を診るとき、実際には視覚・聴覚・触覚など多くの情報を使います。しかしAIに渡したのは、電子カルテと看護師が書いた数行のメモのみ。

それだけの情報で専門医を超えられたということは、医師が当たり前のように使っている「テキスト情報の読み解き力」において、AIがすでに人間を上回っていることを示しています。

競合比較｜Google・Microsoftの医療AIとの違い

Google Med-PaLM｜マルチモーダルが強み

Googleが開発した「Med-PaLM」シリーズは、医療画像（レントゲン・MRIなど）も扱えるマルチモーダルAIが特徴です。

Med-PaLM 2は米国の医師免許試験（USMLE）で合格点を超え、Med-PaLM Mは放射線画像の診断にも対応。

今回のo1研究との違いは「入力の幅」です。o1はテキストのみですが、Med-PaLMは画像も処理できる。一方でo1は複雑な臨床推論（治療計画）で89%という高精度を達成しており、「推論の深さ」ではo1に強みがあると言えます。

Microsoft MAI-DxO｜院内システム連携が特徴

Microsoftが開発した「MAI Diagnostic Orchestrator（MAI-DxO）」は、病院の電子カルテシステム（Epic等）とシームレスに連携する設計が特徴です。

Azure OpenAI Service経由でGPT-4を活用し、Epic SystemsとのAPI統合により、医師が普段使う院内システムの中でAI診断支援が完結します。

o1研究が「スタンドアロンの推論能力」を実証したとすれば、MAI-DxOは「院内インフラへの組み込みやすさ」を強みにしています。

ChatGPT Health｜患者向けの直接利用を開拓

OpenAI自身も「ChatGPT Health」というサービスを展開中。こちらは医師向けではなく、患者が直接健康相談できるインターフェースとして提供されています。

今回の研究のo1は医療機関向けの使用を想定していますが、将来的にはChatGPT Healthの基盤モデルとして統合される可能性があります。

限界と注意点｜喜びすぎてはいけない理由

テキスト以外には対応できない

今回の研究で最も重要な制約が「テキスト限定」です。

実際の救急診断では、患者の顔色・呼吸の乱れ・触診の感触・聴診器で聞く心音など、テキストに変換できない情報が診断に大きく影響します。

o1はそれらを一切使わずに67%を達成しましたが、裏を返せば、これらのマルチモーダル情報があれば人間の医師はさらに精度を上げられる可能性があります。

「医師を置き換える」のではなく「第二の目」として

研究をリードしたハーバードの著者は明確に述べています。

「この結果は、AIが医師に取って代わることを支持するものではない」

AIは「強力なセカンドオピニオン（第二の意見）」として機能することが期待されています。医師同士が相談すると診断精度が上がるように、AIとの相談が診断ミスを減らす「チェック機能」として活用されるイメージです。

また、AIは依然としてハルシネーション（事実でない情報を生成すること）のリスクがあります。研究チームも「AIは多くのケースで少なくとも有用な提案をするが、誤った情報を生成する可能性はある」と警告しています。

日本の医療現場への影響

超高齢社会×医師不足という課題

日本にとって、この研究は特別な意味を持ちます。

日本は世界最速で高齢化が進み、人口1,000人あたりの医師数は2.4人と先進国最低水準。救急科の医師不足は特に深刻で、地方では救急車の「たらい回し」が社会問題化しています。

もし初期トリアージにAIを活用できれば、医師が手薄な夜間・休日でも、患者を適切な科に振り分ける精度が大幅に上がる可能性があります。

日本語データの不足という課題

一方で、日本特有の課題もあります。

今回の研究に使われたデータは英語の電子カルテです。AIモデルの学習データにも日本語の医療データはほとんど含まれておらず、日本人患者の診断に同等の精度が発揮されるかは不明です。

厚生労働省は電子カルテの標準化を推進しており、将来的に日本語医療データでAIを追加訓練することで、日本でも同様の成果を目指す研究が進む見通しです。

今後のシナリオ｜電子カルテとの連携

実用化に向けて、日本ではどんな動きが起きるでしょうか。

たとえば大阪府内の総合病院を想像してみてください。夜間の救急外来で1人の当直医が10人の患者を抱えているとき、電子カルテにo1が接続されていれば「この患者は心筋梗塞の可能性が高い」という警告が自動で表示されます。

医師はその警告を参考に、見落としのリスクを大幅に減らせる。これが「医師の代替」ではなく「医師を守るツール」としての医療AIの本来の姿です。

よくある質問（FAQ）

Q. 今すぐ救急外来でo1を使えますか？

A. 現時点では臨床現場での直接利用には規制のハードルがあります。

米国ではFDA（食品医薬品局）の認可が必要で、日本では薬事法上の医療機器承認が求められます。今回の研究は「可能性の実証」であり、商用化・臨床導入には安全性評価・法規制整備が必要です。

直接利用ではなく、医師が最終判断を行う「補助ツール」としての活用が現実的な近未来像です。

Q. この研究のサンプル数76人は少なすぎませんか？

A. 確かに小規模であることが批判されており、研究チームも認めています。

76人という数は医学研究としては小さく、特定の病院・患者群への偏りが排除されていません。ただし、同じチームは New England Journal of Medicine の143件の臨床事例でも検証しており、再現性の確認が進んでいます。より大規模な多施設研究が次のステップとして求められます。

Q. AIの診断ミスで患者が死亡した場合、誰が責任を取りますか？

A. 現行法では、最終判断を行った医師・医療機関が責任を負います。

AIはあくまで「提案」を行うツールであり、最終的な医療行為の責任は人間の医師にあります。ただしAIが普及するにつれて、「AIの提案を無視した場合の過失」をどう扱うかという新たな法的議論が生まれています。日本でも医療AIの責任論に関する検討が厚労省・法務省レベルで始まっています。

Q. o1以外のAIモデルでも同じ結果が出ますか？

A. モデルによって性能差は大きく、o1の「推論モデル」としての特性が今回の高精度に寄与しています。

o1はOpenAIの「思考型モデル」で、回答を出す前に段階的な推論プロセスを経ます。通常の会話型ChatGPT（GPT-4など）とは設計が異なります。同研究でも旧来モデルとの比較を行っており、o1の方が従来のChatGPT-4より大幅に高精度でした。医療診断のような複雑な推論には、o1のような思考型モデルが適していることが改めて示されました。

まとめ

ハーバード×Stanford研究：OpenAI o1が実際の救急患者76人で67.1%正診、専門医50〜55%を上回る（Science誌掲載、2026年4月30日）
与えた情報は最小限：電子カルテ＋看護師メモのみ。画像なし・診察なし・テキストだけで専門医超え
情報が増えるほど高精度：詳細情報あり82%、治療計画では89% vs 医師34%の圧倒的差
3ステージ全て：初期トリアージ・ER診察・入院判断でも医師をアウトパフォーム
競合との比較：Googleは画像対応の幅広さ、MicrosoftはEpic連携、OpenAI o1は推論深度が強み
限界もある：テキスト限定、ハルシネーションのリスク、規制整備が必要
日本への示唆：医師不足×超高齢社会で特に意義大、ただし日本語データ不足が課題
目指すべき姿：AIが医師を「置き換える」のではなく、診断ミスを減らす「第二の目」として機能させる