- OpenAIが計算生物学(コンピューターで生き物のデータを解析する分野)のAI能力を測る新テスト「GeneBench-Pro」を発表
- 最上位モデルGPT-5.6 Solでも合格率はわずか31.5%で、7割近い問題を解けなかった
- Claude Opus 4.8は16.0%、Gemini 3.5 Flashは8.1%と、他社モデルはさらに低い結果に
- 1問を人間の専門家が解くには20〜40時間かかる超難問ぞろい
- 創薬や医療研究の自動化にAIがどこまで使えるかを見極める重要な指標になる
「AIはもう人間の科学者を超えた」——そんな話をよく耳にしませんか。ところが最新のテストでは、世界最強クラスのAIでも生物学の難問の7割近くを間違えました。OpenAIが2026年7月1日に発表した新ベンチマーク「GeneBench-Pro」の結果です。この記事では、その中身と私たちへの影響をやさしく解説します。
GeneBench-Proとは何か
GeneBench-Pro(ジーンベンチ・プロ)は、OpenAIが作った「AIの科学力テスト」です。
くわしくいうと、計算生物学という分野でAIの実力を測ります。計算生物学とは、遺伝子や細胞などの大量データをコンピューターで解析する研究のことです。
このテストには全部で129問が用意されています。
問題は10の分野と21の細かいテーマにまたがります。たとえば集団遺伝学、がんのゲノム解析、薬の効き方を遺伝子から調べる臨床薬理ゲノミクスなどです。
ふつうのAIテストは「知識を答える」ものが多いです。しかしGeneBench-Proは違います。
それぞれの問題には、わざとノイズ(意味のない雑データ)を混ぜた本物っぽいデータが付いています。AIはそのデータを自分で調べ、正しい分析方法を選び、結論まで出さないといけません。
最強AIでも合格率31.5%という衝撃
結果は多くの研究者を驚かせました。
OpenAIの最上位モデルGPT-5.6 Solでも、成績は次の通りでした。
- もっとも深く考える設定:合格率28.7%
- さらに高性能な「Proモード」:合格率31.5%
つまり、いちばん賢いAIでも3問に1問しか正解できなかったのです。
ほかのAIモデルはさらに低い結果でした。
- Anthropic Claude Opus 4.8:16.0%
- Google Gemini 3.5 Flash:8.1%
- Google Gemini 3.1 Pro:3.1%
- GLM 5.2:4.6%
- DeepSeek V4 Pro:2.4%
- xAI Grok 4.3:1.5%
ただし、進歩の速さも見逃せません。
このテストのもとになった旧バージョンでは、当時のGPT-5は5%未満しか解けませんでした。わずかな期間で約6倍にのびた計算です。
なぜこんなに難しいのか
点数が低い理由は、問題が「暗記」では解けないからです。
OpenAIはこのテストで「リサーチ・テイスト(研究のセンス)」を測っていると説明します。研究のセンスとは、データを前にして下す一連の判断力のことです。
たとえば「このデータで何が言えるのか」「途中の分析結果を見て方針を変えるべきか」「この結論は意思決定に使えるほど確かか」といった判断です。
実際の研究データには、答えへの手順書は付いていません。
研究者は、目の前のパターンが本物の生物学的な現象なのか、ただのノイズなのかを自分で見分けます。そして結果を見ながら次の一手を決めていきます。
この「散らかった現実のデータから答えを見つけ出す力」こそ、いまのAIがまだ苦手にしている部分なのです。
人間の専門家と比べるとどうなる?
この問題がどれほど難しいか、時間で考えるとよくわかります。
OpenAIによると、1問を人間の専門家が解くのに20〜40時間かかると見積もられています。
専門家の時給を約200ドル(約3万円)とすると、1問あたり数十万円分の作業量です。一方でAIが1問を処理する費用は、わずか数ドルですみます。
だからこそ期待も大きいのです。
ある中小のバイオ企業を想像してみてください。研究者が数人しかいなくても、AIが下ごしらえの解析を担えば、少人数でも大きな発見に近づけるかもしれません。
問題の質も本物です。129問のうち82問は、大学院生・ポスドク・企業の科学者・大学教授など外部の専門家がチェックしました。UCLAの研究者は「経験ある指導者なしでは、大学院生でも苦戦する難しさ」と評しています。
ほかのAIテストとの違い
AIの実力を測るテストは、これまでもたくさんありました。
有名なのは、知識を問う「MMLU」や、数学・プログラミングを解かせるテストです。これらは「決まった正解が1つある問題」を出します。
GeneBench-Proはここが決定的に違います。
- MMLUなど従来型:知識やクイズを問う。答えは1つに決まる
- 数学・コーディング系:手順どおり正確に解けるかを見る
- GeneBench-Pro:散らかったデータから研究者のように判断できるかを見る
OpenAIはこのテストの一部を公開する予定です。
代表的な10問を「Hugging Face」(AI関連データを共有するサイト)で公開し、独立評価機関のArtificial Analysisには50問を提供します。他社が同じ土俵で検証できるようにするねらいです。
日本の研究や私たちへの影響
この話は、遠い海外のニュースではありません。
日本でもAIを使った創薬(新しい薬の開発)への期待が高まっています。国内の製薬会社やスタートアップも、AIで研究を速める競争のただ中にいます。
GeneBench-Proの結果は、その現在地を冷静に教えてくれます。
つまり「AIはまだ人間の科学者を置きかえるほど信頼できない」という事実です。同時に「確実に自動化できれば発見を大幅に速められる」という希望も示しています。
私たちにとっての教訓もはっきりしています。
AIが出した分析結果を、そのままうのみにするのは危険だということです。とくに健康や医療にかかわる場面では、専門家の確認が欠かせません。AIは強力な助手ですが、まだ最終責任者にはなれないのです。
よくある質問(FAQ)
Q1. GeneBench-Proは誰でも使えますか?
全129問が公開されるわけではありません。代表的な10問がHugging Faceで公開され、50問が独立評価機関に提供されます。残りは非公開です。
Q2. 合格率31.5%は低すぎませんか?
それだけ問題が難しいためです。1問に人間の専門家でも20〜40時間かかる超難問ぞろいなので、3割解けるだけでも大きな進歩と見られています。
Q3. なぜOpenAIは自社に不利な低い点数を公開したのですか?
AIの限界を正しく測ることが目的だからです。改善すべき課題を明確にし、業界全体の進歩を促すねらいがあります。他社にも問題を提供しています。
Q4. このAIを使えば、すぐに新薬ができますか?
いいえ、まだそこまでの信頼性はありません。現時点では研究者を助ける道具にとどまります。ただし将来的に精度が上がれば、創薬のスピードを大きく変える可能性があります。
Q5. GPT-5.6 Sol以外のモデルはなぜ低いのですか?
散らかったデータから判断する「研究のセンス」が、まだ十分に育っていないためと考えられます。この能力はモデルによって差が大きく出ました。
まとめ
今回のポイントを振り返ります。
- OpenAIが計算生物学のAIテスト「GeneBench-Pro」を2026年7月1日に発表した
- 最強のGPT-5.6 Solでも合格率は31.5%で、7割近くを解けなかった
- 他社モデルはさらに低く、Claude Opus 4.8で16.0%、Gemini 3.5 Flashで8.1%
- 1問に人間の専門家でも20〜40時間かかる超難問で、AIには「研究のセンス」が問われる
- AIはまだ科学者の代わりにはなれないが、進歩の速さは本物で創薬などへの期待は大きい
まずは身近なAIの回答も、正しさを自分で確かめる習慣から始めてみましょう。

