この記事でわかること
- MIT(マサチューセッツ工科大学)が発表した「RLM(再帰型言語モデル)」の全容
- AIの「記憶力の壁」を100倍に広げる画期的な仕組み
- ベンチマークテストで0%→91%という驚きの成績アップ
- オープンソースで誰でも使える実装が公開されていること
- 法律文書レビューやコード解析など実務への応用可能性
ChatGPTやClaudeなどのAI(大規模言語モデル=LLM)には、大きな弱点があります。それは「一度に読める文章の量に限界がある」ということです。
たとえば、分厚い小説をまるごとAIに読ませて「この登場人物の変化を教えて」と聞いても、途中で内容を忘れてしまうのです。この問題を「コンテキストウィンドウの限界」と呼びます。
MIT(マサチューセッツ工科大学)のCSAIL(コンピュータ科学・人工知能研究所)が発表したRLM(Recursive Language Models)は、この壁を一気に100倍も広げる画期的な手法です。やさしく解説します。
RLMとは?ひとことで言うと
RLMは、AIが自分自身を繰り返し呼び出して、長い文章を少しずつ処理する仕組みです。
身近なたとえで説明しましょう。あなたが1,000ページの本の内容を要約しなければならないとします。一度に全ページを読むのは大変ですよね。
そこで、こんな方法を取ります。
- まず目次を見て、全体の構成を把握する
- 章ごとに分割して、それぞれ要約する
- 各章の要約をまとめて、全体の要約を作る
RLMがやっていることは、まさにこれと同じです。AIがプログラムを書いて、自分自身に「この部分を読んで」と指示を出すのです。これを再帰(リカーシブ)と呼びます。
なぜRLMが必要なのか?
現在のAIには「コンテキストウィンドウ」という制限があります。これは、AIが一度に処理できる文字数の上限です。
たとえばGPT-5は約12.8万トークン(日本語で約5〜6万字)まで対応しています。これは新書1冊分くらいの量です。
ところが、実際のビジネスではもっと大量の文書を扱う場面があります。
- 裁判で使う数百ページの証拠書類
- 企業の過去10年分の契約書
- 巨大なソフトウェアの全ソースコード
- 科学論文数百本の横断的な分析
こうした場面では、現在のAIは力不足です。コンテキストウィンドウを超えると、情報が「抜け落ちる」現象(コンテキストロットと呼ばれます)が起きてしまいます。
つまり、AIの記憶力の壁を壊すことが、今もっとも求められている技術課題なのです。
RLMの仕組みをやさしく解説
RLMの仕組みは、大きく3つのステップで成り立っています。
ステップ1:文書を「外部メモリ」に保存する
まず、AIに直接長い文章を読ませるのではなく、Python(プログラミング言語)のREPL環境(対話型の実行環境)に文書を保存します。
たとえるなら、テスト中に教科書をそのまま頭に入れるのではなく、机の上に教科書を置いて、必要なページだけ開いて見るイメージです。AIの「頭の中」は軽いまま保たれます。
ステップ2:AIが「コード」を書いて自分で検索する
「ルートモデル」と呼ばれる司令塔のAIが、Pythonコードを書いて文書の中身を調べます。たとえば「3章の内容を取り出して」「この単語を含む段落を検索して」といった操作をプログラムで行います。
ここがRLMのすごいところです。AIが自分でプログラムを書いて、自分に再帰的に指示を出すのです。
ステップ3:小さなAIが「作業員」として働く
ルートモデルが全体の計画を立て、「再帰モデル」と呼ばれる軽量なAIが実際の読み取り作業を担当します。大きなAIが指揮官、小さなAIが実行部隊というチーム体制です。
この仕組みにより、コストを抑えながら超大量の文書を処理できます。実際、RLMのコストは1回のクエリあたり約0.99ドル(約150円)で、全文を直接読ませる方法より最大3倍安くなると報告されています。
驚きのベンチマーク結果
RLMの性能は、ベンチマークテスト(AIの実力テスト)で証明されています。
BrowseComp-Plus:600万〜1,100万トークンのテスト
このテストでは、600万〜1,100万トークン(日本語で約300万〜500万字相当)という超長文の中から情報を見つける課題が出されます。
- 通常のGPT-5(そのまま使った場合):正答率0%(完全に失敗)
- RLM+GPT-5:正答率91.33%
0%が91%になるというのは、「まったく解けなかった問題がほぼ全問正解になった」ということです。これは驚異的な改善です。
OOLONG-Pairs:難しい推論テスト
情報が密に詰まった文書から推論する「OOLONG-Pairs」というテストでは、通常のGPT-5がわずか0.04%しか正解できませんでした。RLMを使うとF1スコア58%にまで向上しました。
小さなモデルでも効果あり
注目すべきは、小さなAIモデルでも大きな効果が出ることです。Qwen3-8B(パラメータ数80億の比較的小さなモデル)にRLMを適用すると、平均28.3%の性能向上が確認されました。しかもその性能は、はるかに大きなGPT-5の通常版に近い水準です。
実用化の可能性と今後の展開
RLMは学術研究だけでなく、実務での活用が期待されています。
すぐに使えそうな分野
- 法律:数百ページの判例や契約書を横断的に分析し、見落としを防ぐ
- ソフトウェア開発:巨大なコードベース全体を理解したうえでバグを見つける
- 医療・製薬:大量の臨床試験データや論文を統合的にレビューする
- 金融:過去数年分の決算報告書を一括で分析する
オープンソースで公開済み
RLMの大きな特徴は、コードがオープンソースとしてGitHubで公開されていることです。MIT CSAILのAlex L. Zhang氏が公開したライブラリを使えば、GPT-5やClaudeなど既存のAIモデルに「後付け」でRLMの能力を追加できます。
さらに、AI研究企業のPrime Intellectが「RLMEnv」という拡張版を開発し、強化学習と組み合わせた次世代の実装も進んでいます。
今後の展望
研究チームは、AIが自分自身のコンテキスト管理を強化学習で学ぶことが次のブレークスルーになると述べています。これが実現すれば、数週間〜数ヶ月にわたる長期タスクをAIが自律的にこなせるようになると言われています。
つまり、RLMは「コンテキストウィンドウを大きくする」のではなく、「賢くコンテキストを使いこなす」という発想の転換を示した研究なのです。
まとめ
MIT CSAILが発表したRLM(Recursive Language Models)のポイントを振り返ります。
- RLMはAIが自分自身を再帰的に呼び出すことで、超長文を処理する新手法
- AIの「記憶力の壁」を約100倍に拡張し、1,000万トークン以上に対応
- BrowseComp-Plusで正答率0%→91%という劇的な改善を達成
- コストは従来手法より最大3倍安い
- 小さなモデルでも平均28.3%の性能向上が確認済み
- オープンソースで公開されており、既存のAIに後付け可能
- 法律・開発・医療・金融など幅広い分野で実用化が期待される
「AIの記憶力」は、これまでモデルを大きくすることで解決しようとしてきました。しかしRLMは、「頭を大きくする」のではなく「仕事のやり方を工夫する」というアプローチで壁を突破しました。この発想は、今後のAI開発の方向性を大きく変える可能性があります。
参考文献
- Alex L. Zhang, Tim Kraska, Omar Khattab「Recursive Language Models」(arXiv論文)
- VentureBeat「MIT’s new ‘recursive’ framework lets LLMs process 10 million tokens without context rot」
- InfoQ「MIT’s Recursive Language Models Improve Performance on Long-Context Tasks」
- TechTalks「Recursive Language Models: A new framework for infinite context in LLMs」
- Prime Intellect「Recursive Language Models: the paradigm of 2026」


