s1モデルとは？たった26分でo1級AIを作る方法

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube

「高性能なAIを使いたいけど、お金がかかりすぎる……」そんなふうに思ったことはありませんか？

2025年1月、スタンフォード大学の研究チームが驚きの発表をしました。OpenAIのo1-preview（高度な推論ができるAI）と同じレベルの性能を、たった26分の学習・約900円のコストで再現する方法を見つけたのです。

この記事では、その「s1モデル」と呼ばれる画期的かっきてきな手法について、中学生でもわかるようにやさしく解説します。

この記事でわかること

OpenAI o1がどんなAIなのか
s1モデルの仕組みと、なぜ低コストで高性能が出せるのか
「テストタイムスケーリング」と「バジェットフォーシング」のわかりやすい説明
AI学習の民主化みんしゅかが私たちの生活にどう影響するのか

そもそもo1ってどんなAI？

まず、「o1」について説明します。OpenAIが2024年9月にリリースしたo1は、「考える力」がとても強いAIモデルです。

普通のAI（たとえばGPT-4o）は、質問されるとすぐに答えを返します。つまり「直感ちょっかん」で答えるイメージです。

一方、o1は答える前にじっくり考えることができます。たとえば数学の難しい問題を出されたとき、いきなり答えを出すのではなく、「まずこの式を変形して……次にこの条件を確認して……」と段階的だんかいてきに考えてから答えます。

たとえるなら、テストで「とりあえず書く子」と「下書きしてから清書する子」の違いです。o1は後者のタイプで、その分だけ正確な答えを出せるのです。

ただし、o1はOpenAIの有料サービスでしか使えません。しかも、どうやって「考える力」を実現しているのか、その仕組みは公開されていませんでした。

s1モデルとは？スタンフォード発の革命的かくめいてき手法

そこで登場したのがs1モデルです。スタンフォード大学のニクラス・ムニコフさんらの研究チームが開発しました。

s1モデルのすごいところは、以下の3つです。

学習時間: NVIDIA H100 GPU 16台を使ってたった26分
コスト: 計算費用は約6ドル（約900円）
性能: 数学の難問でo1-previewを最大27%上回るスコア

つまり、「1000円もかからない費用で、数億円をかけて作られたAIと同じレベルの推論力を再現した」ということです。

ベースとなったのは、中国アリババが公開しているオープンソースのAIモデル「Qwen2.5-32B-Instruct」です。このモデルは誰でも無料で使えます。s1チームは、このモデルに少しだけ追加学習させることで、o1レベルの「考える力」を身につけさせました。

しかも、モデル・データ・コードのすべてが無料公開されています。誰でもGitHub上で確認・利用できるのです。

たった1000問のデータで高性能を実現

AIの学習といえば、何百万・何千万ものデータが必要だと思いますよね？ところが、s1モデルはわずか1000問で高性能を実現しました。

研究チームは56,000問のデータセットの中から、次の3つの基準で問題を厳選げんせんしました。

難易度: 簡単すぎず、難しすぎない「ちょうどいい」レベル
多様性: 数学・科学・論理など、さまざまなジャンルをバランスよく
品質ひんしつ: 答えに至る思考の過程がしっかり書かれたもの

この厳選されたデータセットは「s1K」と名付けられました。「K」は1000を表す記号です。

たとえるなら、受験勉強で「問題集を10冊やる」のではなく、「良質な問題を100問だけ徹底的にやる」という方針です。量より質を重視した結果、驚くほど効率的な学習ができたのです。

テストタイムスケーリングとは？

s1モデルの核心にあるのが「テストタイムスケーリング」という考え方です。

AIの性能を上げる方法は、大きく分けて2つあります。

学習時に頑張る: もっとたくさんのデータで学習する（従来のやり方）
答えるときに頑張る: 回答を生成するときに、もっと時間をかけて考える（テストタイムスケーリング）

従来のAI開発は「学習時に頑張る」アプローチが主流でした。つまり、より多くのデータ・より大きなモデル・より多くのGPUで性能を上げていたのです。

テストタイムスケーリングは発想を逆転ぎゃくてんさせました。「学習は少なめでいい。その代わり、答えるときにしっかり考えさせよう」という方針です。

人間にたとえると、「10年間勉強した人」と「3年間勉強して、テストのときに1問ずつじっくり考える人」の比較です。テストタイムスケーリングは後者のアプローチで、意外にもこちらの方が良い結果を出せることがわかりました。

バジェットフォーシングの仕組み

テストタイムスケーリングを実現するために、s1チームが開発したのが「バジェットフォーシング（Budget Forcing）」というテクニックです。

バジェットフォーシングの仕組みはとてもシンプルです。

考える時間を延ばす

AIが「もう答えを出そう」と思考を終わらせようとしたとき、「Wait（待って）」という言葉を追加して、もう少し考えさせます。

すると、AIは自分の答えを見直して、間違いに気づいて修正することがあります。まるで「ちょっと待って、もう一回確認させて」と言っているようなものです。

考える時間を制限する

逆に、考えすぎて時間がかかりすぎる場合は、思考を強制的に打ち切ることもできます。

つまり、バジェットフォーシングは「AIの考える時間を自由にコントロールする」技術です。

面白いのは、考える時間を増やすほど正解率が上がるという点です。実験では、バジェットフォーシングなしで50%だった正解率が、適用後は57%に向上しました。「Wait」と言うだけで7%も正解率が上がるのは驚きですよね。

AI学習の民主化みんしゅかが加速する理由

s1モデルの登場は、「AIの民主化」を大きく後押しします。民主化とは、特定の大企業だけでなく、個人こじんや小さな組織でも高性能AIを使えるようになることです。

これまで、o1のような高度な推論AIを作るには、次のようなハードルがありました。

何千台ものGPUが必要（数十億円規模の投資）
何百万ものデータの収集・整備が必要
大企業の秘密の技術が必要

s1モデルは、これらのハードルを一気に下げました。

GPU 16台・26分で学習できる → 大学の研究室レベルで実現可能
1000問のデータだけで十分 → データ収集のコストが激減
コードとモデルが全公開 → 誰でも再現・改良できる

今後は、特定の分野（医療・法律・教育など）に特化した推論AIを、中小企業や研究者が自分で作れるようになると期待されています。日本の企業にとっても、AI活用のチャンスが広がる大きなニュースです。

まとめ

この記事のポイントを振り返りましょう。

s1モデルは、スタンフォード大学が開発した低コストの推論AIで、o1-previewを上回る性能を実現
学習にかかった時間は26分、コストは約900円
厳選された1000問のデータ（s1K）だけで効率的に学習
「テストタイムスケーリング」＝答えるときにじっくり考えさせる新しいアプローチ
「バジェットフォーシング」で考える時間をコントロールし、正解率を向上
コード・データ・モデルがすべて無料公開されており、AI学習の民主化が加速

高性能AIが一部の大企業だけのものではなくなる時代が、すぐそこまで来ています。今後もこうした「誰でも使えるAI」の動きに注目していきましょう。

参考文献

こんな時代だから遊んで学びたい

AIを学ぶオンラインサロン「AIフレンズ」では、生成AIを楽しく、どこよりも優しく学べる環境をご用意しております。

毎週開催されるオンラインセッションでは、リアルタイムで学び合える機会を提供しています。さらに、月に一度のオフラインイベントでは、メンバー同士が直接交流し、アイデアや知識を深めることができます。

「AIフレンズ」の仲間とともに、新しい価値を創造し、可能性を広げてみませんか？

一緒に学び、成長しながら、生成AIを使いこなす力を身につけましょう！

今すぐAIフレンズに参加して、未来への第一歩を踏み出そう！！