最強AIも7割不正解｜生物学の難問ベンチ登場

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

OpenAIが計算生物学（コンピューターで生き物のデータを解析する分野）のAI能力を測る新テスト「GeneBench-Pro」を発表
最上位モデルGPT-5.6 Solでも合格率はわずか31.5%で、7割近い問題を解けなかった
Claude Opus 4.8は16.0%、Gemini 3.5 Flashは8.1%と、他社モデルはさらに低い結果に
1問を人間の専門家が解くには20〜40時間かかる超難問ぞろい
創薬や医療研究の自動化にAIがどこまで使えるかを見極める重要な指標になる

「AIはもう人間の科学者を超えた」——そんな話をよく耳にしませんか。ところが最新のテストでは、世界最強クラスのAIでも生物学の難問の7割近くを間違えました。OpenAIが2026年7月1日に発表した新ベンチマーク「GeneBench-Pro」の結果です。この記事では、その中身と私たちへの影響をやさしく解説します。

GeneBench-Proとは何か

GeneBench-Pro（ジーンベンチ・プロ）は、OpenAIが作った「AIの科学力テスト」です。

くわしくいうと、計算生物学という分野でAIの実力を測ります。計算生物学とは、遺伝子や細胞などの大量データをコンピューターで解析する研究のことです。

このテストには全部で129問が用意されています。

問題は10の分野と21の細かいテーマにまたがります。たとえば集団遺伝学、がんのゲノム解析、薬の効き方を遺伝子から調べる臨床薬理ゲノミクスなどです。

ふつうのAIテストは「知識を答える」ものが多いです。しかしGeneBench-Proは違います。

それぞれの問題には、わざとノイズ（意味のない雑データ）を混ぜた本物っぽいデータが付いています。AIはそのデータを自分で調べ、正しい分析方法を選び、結論まで出さないといけません。

最強AIでも合格率31.5%という衝撃

結果は多くの研究者を驚かせました。

OpenAIの最上位モデルGPT-5.6 Solでも、成績は次の通りでした。

もっとも深く考える設定：合格率28.7%
さらに高性能な「Proモード」：合格率31.5%

つまり、いちばん賢いAIでも3問に1問しか正解できなかったのです。

ほかのAIモデルはさらに低い結果でした。

Anthropic Claude Opus 4.8：16.0%
Google Gemini 3.5 Flash：8.1%
Google Gemini 3.1 Pro：3.1%
GLM 5.2：4.6%
DeepSeek V4 Pro：2.4%
xAI Grok 4.3：1.5%

ただし、進歩の速さも見逃せません。

このテストのもとになった旧バージョンでは、当時のGPT-5は5%未満しか解けませんでした。わずかな期間で約6倍にのびた計算です。

なぜこんなに難しいのか

点数が低い理由は、問題が「暗記」では解けないからです。

OpenAIはこのテストで「リサーチ・テイスト（研究のセンス）」を測っていると説明します。研究のセンスとは、データを前にして下す一連の判断力のことです。

たとえば「このデータで何が言えるのか」「途中の分析結果を見て方針を変えるべきか」「この結論は意思決定に使えるほど確かか」といった判断です。

実際の研究データには、答えへの手順書は付いていません。

研究者は、目の前のパターンが本物の生物学的な現象なのか、ただのノイズなのかを自分で見分けます。そして結果を見ながら次の一手を決めていきます。

この「散らかった現実のデータから答えを見つけ出す力」こそ、いまのAIがまだ苦手にしている部分なのです。

人間の専門家と比べるとどうなる？

この問題がどれほど難しいか、時間で考えるとよくわかります。

OpenAIによると、1問を人間の専門家が解くのに20〜40時間かかると見積もられています。

専門家の時給を約200ドル（約3万円）とすると、1問あたり数十万円分の作業量です。一方でAIが1問を処理する費用は、わずか数ドルですみます。

だからこそ期待も大きいのです。

ある中小のバイオ企業を想像してみてください。研究者が数人しかいなくても、AIが下ごしらえの解析を担えば、少人数でも大きな発見に近づけるかもしれません。

問題の質も本物です。129問のうち82問は、大学院生・ポスドク・企業の科学者・大学教授など外部の専門家がチェックしました。UCLAの研究者は「経験ある指導者なしでは、大学院生でも苦戦する難しさ」と評しています。

ほかのAIテストとの違い

AIの実力を測るテストは、これまでもたくさんありました。

有名なのは、知識を問う「MMLU」や、数学・プログラミングを解かせるテストです。これらは「決まった正解が1つある問題」を出します。

GeneBench-Proはここが決定的に違います。

MMLUなど従来型：知識やクイズを問う。答えは1つに決まる
数学・コーディング系：手順どおり正確に解けるかを見る
GeneBench-Pro：散らかったデータから研究者のように判断できるかを見る

OpenAIはこのテストの一部を公開する予定です。

代表的な10問を「Hugging Face」（AI関連データを共有するサイト）で公開し、独立評価機関のArtificial Analysisには50問を提供します。他社が同じ土俵で検証できるようにするねらいです。

日本の研究や私たちへの影響

この話は、遠い海外のニュースではありません。

日本でもAIを使った創薬（新しい薬の開発）への期待が高まっています。国内の製薬会社やスタートアップも、AIで研究を速める競争のただ中にいます。

GeneBench-Proの結果は、その現在地を冷静に教えてくれます。

つまり「AIはまだ人間の科学者を置きかえるほど信頼できない」という事実です。同時に「確実に自動化できれば発見を大幅に速められる」という希望も示しています。

私たちにとっての教訓もはっきりしています。

AIが出した分析結果を、そのままうのみにするのは危険だということです。とくに健康や医療にかかわる場面では、専門家の確認が欠かせません。AIは強力な助手ですが、まだ最終責任者にはなれないのです。

よくある質問（FAQ）

Q1. GeneBench-Proは誰でも使えますか？

全129問が公開されるわけではありません。代表的な10問がHugging Faceで公開され、50問が独立評価機関に提供されます。残りは非公開です。

Q2. 合格率31.5%は低すぎませんか？

それだけ問題が難しいためです。1問に人間の専門家でも20〜40時間かかる超難問ぞろいなので、3割解けるだけでも大きな進歩と見られています。

Q3. なぜOpenAIは自社に不利な低い点数を公開したのですか？

AIの限界を正しく測ることが目的だからです。改善すべき課題を明確にし、業界全体の進歩を促すねらいがあります。他社にも問題を提供しています。

Q4. このAIを使えば、すぐに新薬ができますか？

いいえ、まだそこまでの信頼性はありません。現時点では研究者を助ける道具にとどまります。ただし将来的に精度が上がれば、創薬のスピードを大きく変える可能性があります。

Q5. GPT-5.6 Sol以外のモデルはなぜ低いのですか？

散らかったデータから判断する「研究のセンス」が、まだ十分に育っていないためと考えられます。この能力はモデルによって差が大きく出ました。

まとめ

今回のポイントを振り返ります。

OpenAIが計算生物学のAIテスト「GeneBench-Pro」を2026年7月1日に発表した
最強のGPT-5.6 Solでも合格率は31.5%で、7割近くを解けなかった
他社モデルはさらに低く、Claude Opus 4.8で16.0%、Gemini 3.5 Flashで8.1%
1問に人間の専門家でも20〜40時間かかる超難問で、AIには「研究のセンス」が問われる
AIはまだ科学者の代わりにはなれないが、進歩の速さは本物で創薬などへの期待は大きい

まずは身近なAIの回答も、正しさを自分で確かめる習慣から始めてみましょう。

参考文献

こんな時代だから遊んで学びたい

AIを学ぶオンラインサロン「AIフレンズ」では、生成AIを楽しく、どこよりも優しく学べる環境をご用意しております。

毎週開催されるオンラインセッションでは、リアルタイムで学び合える機会を提供しています。さらに、月に一度のオフラインイベントでは、メンバー同士が直接交流し、アイデアや知識を深めることができます。

「AIフレンズ」の仲間とともに、新しい価値を創造し、可能性を広げてみませんか？

一緒に学び、成長しながら、生成AIを使いこなす力を身につけましょう！

今すぐAIフレンズに参加して、未来への第一歩を踏み出そう！！