s1モデルとは?たった26分でo1級AIを作る方法

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube

「高性能なAIを使いたいけど、お金がかかりすぎる……」そんなふうに思ったことはありませんか?

2025年1月、スタンフォード大学の研究チームが驚きの発表をしました。OpenAIのo1-preview(高度な推論ができるAI)と同じレベルの性能を、たった26分の学習・約900円のコストで再現する方法を見つけたのです。

この記事では、その「s1モデル」と呼ばれる画期的かっきてきな手法について、中学生でもわかるようにやさしく解説します。

この記事でわかること

  • OpenAI o1がどんなAIなのか
  • s1モデルの仕組みと、なぜ低コストで高性能が出せるのか
  • 「テストタイムスケーリング」と「バジェットフォーシング」のわかりやすい説明
  • AI学習の民主化みんしゅかが私たちの生活にどう影響するのか

そもそもo1ってどんなAI?

まず、「o1」について説明します。OpenAIが2024年9月にリリースしたo1は、「考える力」がとても強いAIモデルです。

普通のAI(たとえばGPT-4o)は、質問されるとすぐに答えを返します。つまり「直感ちょっかん」で答えるイメージです。

一方、o1は答える前にじっくり考えることができます。たとえば数学の難しい問題を出されたとき、いきなり答えを出すのではなく、「まずこの式を変形して……次にこの条件を確認して……」と段階的だんかいてきに考えてから答えます。

たとえるなら、テストで「とりあえず書く子」と「下書きしてから清書する子」の違いです。o1は後者のタイプで、その分だけ正確な答えを出せるのです。

ただし、o1はOpenAIの有料サービスでしか使えません。しかも、どうやって「考える力」を実現しているのか、その仕組みは公開されていませんでした。

s1モデルとは?スタンフォード発の革命的かくめいてき手法

そこで登場したのがs1モデルです。スタンフォード大学のニクラス・ムニコフさんらの研究チームが開発しました。

s1モデルのすごいところは、以下の3つです。

  • 学習時間: NVIDIA H100 GPU 16台を使ってたった26分
  • コスト: 計算費用は約6ドル(約900円)
  • 性能: 数学の難問でo1-previewを最大27%上回るスコア

つまり、「1000円もかからない費用で、数億円をかけて作られたAIと同じレベルの推論力を再現した」ということです。

ベースとなったのは、中国アリババが公開しているオープンソースのAIモデル「Qwen2.5-32B-Instruct」です。このモデルは誰でも無料で使えます。s1チームは、このモデルに少しだけ追加学習させることで、o1レベルの「考える力」を身につけさせました。

しかも、モデル・データ・コードのすべてが無料公開されています。誰でもGitHub上で確認・利用できるのです。

たった1000問のデータで高性能を実現

AIの学習といえば、何百万・何千万ものデータが必要だと思いますよね?ところが、s1モデルはわずか1000問で高性能を実現しました。

研究チームは56,000問のデータセットの中から、次の3つの基準で問題を厳選げんせんしました。

  • 難易度: 簡単すぎず、難しすぎない「ちょうどいい」レベル
  • 多様性: 数学・科学・論理など、さまざまなジャンルをバランスよく
  • 品質ひんしつ: 答えに至る思考の過程がしっかり書かれたもの

この厳選されたデータセットは「s1K」と名付けられました。「K」は1000を表す記号です。

たとえるなら、受験勉強で「問題集を10冊やる」のではなく、「良質な問題を100問だけ徹底的にやる」という方針です。量より質を重視した結果、驚くほど効率的な学習ができたのです。

テストタイムスケーリングとは?

s1モデルの核心にあるのが「テストタイムスケーリング」という考え方です。

AIの性能を上げる方法は、大きく分けて2つあります。

  • 学習時に頑張る: もっとたくさんのデータで学習する(従来のやり方)
  • 答えるときに頑張る: 回答を生成するときに、もっと時間をかけて考える(テストタイムスケーリング)

従来のAI開発は「学習時に頑張る」アプローチが主流でした。つまり、より多くのデータ・より大きなモデル・より多くのGPUで性能を上げていたのです。

テストタイムスケーリングは発想を逆転ぎゃくてんさせました。「学習は少なめでいい。その代わり、答えるときにしっかり考えさせよう」という方針です。

人間にたとえると、「10年間勉強した人」と「3年間勉強して、テストのときに1問ずつじっくり考える人」の比較です。テストタイムスケーリングは後者のアプローチで、意外にもこちらの方が良い結果を出せることがわかりました。

バジェットフォーシングの仕組み

テストタイムスケーリングを実現するために、s1チームが開発したのが「バジェットフォーシング(Budget Forcing)」というテクニックです。

バジェットフォーシングの仕組みはとてもシンプルです。

考える時間を延ばす

AIが「もう答えを出そう」と思考を終わらせようとしたとき、「Wait(待って)」という言葉を追加して、もう少し考えさせます。

すると、AIは自分の答えを見直して、間違いに気づいて修正することがあります。まるで「ちょっと待って、もう一回確認させて」と言っているようなものです。

考える時間を制限する

逆に、考えすぎて時間がかかりすぎる場合は、思考を強制的に打ち切ることもできます。

つまり、バジェットフォーシングは「AIの考える時間を自由にコントロールする」技術です。

面白いのは、考える時間を増やすほど正解率が上がるという点です。実験では、バジェットフォーシングなしで50%だった正解率が、適用後は57%に向上しました。「Wait」と言うだけで7%も正解率が上がるのは驚きですよね。

AI学習の民主化みんしゅかが加速する理由

s1モデルの登場は、「AIの民主化」を大きく後押しします。民主化とは、特定の大企業だけでなく、個人こじんや小さな組織でも高性能AIを使えるようになることです。

これまで、o1のような高度な推論AIを作るには、次のようなハードルがありました。

  • 何千台ものGPUが必要(数十億円規模の投資)
  • 何百万ものデータの収集・整備が必要
  • 大企業の秘密の技術が必要

s1モデルは、これらのハードルを一気に下げました。

  • GPU 16台・26分で学習できる → 大学の研究室レベルで実現可能
  • 1000問のデータだけで十分 → データ収集のコストが激減
  • コードとモデルが全公開 → 誰でも再現・改良できる

今後は、特定の分野(医療・法律・教育など)に特化した推論AIを、中小企業や研究者が自分で作れるようになると期待されています。日本の企業にとっても、AI活用のチャンスが広がる大きなニュースです。

まとめ

この記事のポイントを振り返りましょう。

  • s1モデルは、スタンフォード大学が開発した低コストの推論AIで、o1-previewを上回る性能を実現
  • 学習にかかった時間は26分、コストは約900円
  • 厳選された1000問のデータ(s1K)だけで効率的に学習
  • テストタイムスケーリング」=答えるときにじっくり考えさせる新しいアプローチ
  • バジェットフォーシング」で考える時間をコントロールし、正解率を向上
  • コード・データ・モデルがすべて無料公開されており、AI学習の民主化が加速

高性能AIが一部の大企業だけのものではなくなる時代が、すぐそこまで来ています。今後もこうした「誰でも使えるAI」の動きに注目していきましょう。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です