最強AIも7割不正解|生物学の難問ベンチ登場

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • OpenAIが計算生物学(コンピューターで生き物のデータを解析する分野)のAI能力を測る新テスト「GeneBench-Pro」を発表
  • 最上位モデルGPT-5.6 Solでも合格率はわずか31.5%で、7割近い問題を解けなかった
  • Claude Opus 4.8は16.0%、Gemini 3.5 Flashは8.1%と、他社モデルはさらに低い結果に
  • 1問を人間の専門家が解くには20〜40時間かかる超難問ぞろい
  • 創薬や医療研究の自動化にAIがどこまで使えるかを見極める重要な指標になる

「AIはもう人間の科学者を超えた」——そんな話をよく耳にしませんか。ところが最新のテストでは、世界最強クラスのAIでも生物学の難問の7割近くを間違えました。OpenAIが2026年7月1日に発表した新ベンチマーク「GeneBench-Pro」の結果です。この記事では、その中身と私たちへの影響をやさしく解説します。

GeneBench-Proとは何か

GeneBench-Pro(ジーンベンチ・プロ)は、OpenAIが作った「AIの科学力テスト」です。

くわしくいうと、計算生物学という分野でAIの実力を測ります。計算生物学とは、遺伝子や細胞などの大量データをコンピューターで解析する研究のことです。

このテストには全部で129問が用意されています。

問題は10の分野と21の細かいテーマにまたがります。たとえば集団遺伝学、がんのゲノム解析、薬の効き方を遺伝子から調べる臨床薬理ゲノミクスなどです。

ふつうのAIテストは「知識を答える」ものが多いです。しかしGeneBench-Proは違います。

それぞれの問題には、わざとノイズ(意味のない雑データ)を混ぜた本物っぽいデータが付いています。AIはそのデータを自分で調べ、正しい分析方法を選び、結論まで出さないといけません。

最強AIでも合格率31.5%という衝撃

結果は多くの研究者を驚かせました。

OpenAIの最上位モデルGPT-5.6 Solでも、成績は次の通りでした。

  • もっとも深く考える設定:合格率28.7%
  • さらに高性能な「Proモード」:合格率31.5%

つまり、いちばん賢いAIでも3問に1問しか正解できなかったのです。

ほかのAIモデルはさらに低い結果でした。

  • Anthropic Claude Opus 4.8:16.0%
  • Google Gemini 3.5 Flash:8.1%
  • Google Gemini 3.1 Pro:3.1%
  • GLM 5.2:4.6%
  • DeepSeek V4 Pro:2.4%
  • xAI Grok 4.3:1.5%

ただし、進歩の速さも見逃せません。

このテストのもとになった旧バージョンでは、当時のGPT-5は5%未満しか解けませんでした。わずかな期間で約6倍にのびた計算です。

なぜこんなに難しいのか

点数が低い理由は、問題が「暗記」では解けないからです。

OpenAIはこのテストで「リサーチ・テイスト(研究のセンス)」を測っていると説明します。研究のセンスとは、データを前にして下す一連の判断力のことです。

たとえば「このデータで何が言えるのか」「途中の分析結果を見て方針を変えるべきか」「この結論は意思決定に使えるほど確かか」といった判断です。

実際の研究データには、答えへの手順書は付いていません。

研究者は、目の前のパターンが本物の生物学的な現象なのか、ただのノイズなのかを自分で見分けます。そして結果を見ながら次の一手を決めていきます。

この「散らかった現実のデータから答えを見つけ出す力」こそ、いまのAIがまだ苦手にしている部分なのです。

人間の専門家と比べるとどうなる?

この問題がどれほど難しいか、時間で考えるとよくわかります。

OpenAIによると、1問を人間の専門家が解くのに20〜40時間かかると見積もられています。

専門家の時給を約200ドル(約3万円)とすると、1問あたり数十万円分の作業量です。一方でAIが1問を処理する費用は、わずか数ドルですみます。

だからこそ期待も大きいのです。

ある中小のバイオ企業を想像してみてください。研究者が数人しかいなくても、AIが下ごしらえの解析を担えば、少人数でも大きな発見に近づけるかもしれません。

問題の質も本物です。129問のうち82問は、大学院生・ポスドク・企業の科学者・大学教授など外部の専門家がチェックしました。UCLAの研究者は「経験ある指導者なしでは、大学院生でも苦戦する難しさ」と評しています。

ほかのAIテストとの違い

AIの実力を測るテストは、これまでもたくさんありました。

有名なのは、知識を問う「MMLU」や、数学・プログラミングを解かせるテストです。これらは「決まった正解が1つある問題」を出します。

GeneBench-Proはここが決定的に違います。

  • MMLUなど従来型:知識やクイズを問う。答えは1つに決まる
  • 数学・コーディング系:手順どおり正確に解けるかを見る
  • GeneBench-Pro:散らかったデータから研究者のように判断できるかを見る

OpenAIはこのテストの一部を公開する予定です。

代表的な10問を「Hugging Face」(AI関連データを共有するサイト)で公開し、独立評価機関のArtificial Analysisには50問を提供します。他社が同じ土俵で検証できるようにするねらいです。

日本の研究や私たちへの影響

この話は、遠い海外のニュースではありません。

日本でもAIを使った創薬(新しい薬の開発)への期待が高まっています。国内の製薬会社やスタートアップも、AIで研究を速める競争のただ中にいます。

GeneBench-Proの結果は、その現在地を冷静に教えてくれます。

つまり「AIはまだ人間の科学者を置きかえるほど信頼できない」という事実です。同時に「確実に自動化できれば発見を大幅に速められる」という希望も示しています。

私たちにとっての教訓もはっきりしています。

AIが出した分析結果を、そのままうのみにするのは危険だということです。とくに健康や医療にかかわる場面では、専門家の確認が欠かせません。AIは強力な助手ですが、まだ最終責任者にはなれないのです。

よくある質問(FAQ)

Q1. GeneBench-Proは誰でも使えますか?

全129問が公開されるわけではありません。代表的な10問がHugging Faceで公開され、50問が独立評価機関に提供されます。残りは非公開です。

Q2. 合格率31.5%は低すぎませんか?

それだけ問題が難しいためです。1問に人間の専門家でも20〜40時間かかる超難問ぞろいなので、3割解けるだけでも大きな進歩と見られています。

Q3. なぜOpenAIは自社に不利な低い点数を公開したのですか?

AIの限界を正しく測ることが目的だからです。改善すべき課題を明確にし、業界全体の進歩を促すねらいがあります。他社にも問題を提供しています。

Q4. このAIを使えば、すぐに新薬ができますか?

いいえ、まだそこまでの信頼性はありません。現時点では研究者を助ける道具にとどまります。ただし将来的に精度が上がれば、創薬のスピードを大きく変える可能性があります。

Q5. GPT-5.6 Sol以外のモデルはなぜ低いのですか?

散らかったデータから判断する「研究のセンス」が、まだ十分に育っていないためと考えられます。この能力はモデルによって差が大きく出ました。

まとめ

今回のポイントを振り返ります。

  • OpenAIが計算生物学のAIテスト「GeneBench-Pro」を2026年7月1日に発表した
  • 最強のGPT-5.6 Solでも合格率は31.5%で、7割近くを解けなかった
  • 他社モデルはさらに低く、Claude Opus 4.8で16.0%、Gemini 3.5 Flashで8.1%
  • 1問に人間の専門家でも20〜40時間かかる超難問で、AIには「研究のセンス」が問われる
  • AIはまだ科学者の代わりにはなれないが、進歩の速さは本物で創薬などへの期待は大きい

まずは身近なAIの回答も、正しさを自分で確かめる習慣から始めてみましょう。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です