MITのRLMとは?AIの記憶力を100倍にする新技術を解説

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube

この記事でわかること

  • MIT(マサチューセッツ工科大学)が発表した「RLM(再帰型言語モデル)」の全容
  • AIの「記憶力の壁」を100倍に広げる画期的な仕組み
  • ベンチマークテストで0%→91%という驚きの成績アップ
  • オープンソースで誰でも使える実装が公開されていること
  • 法律文書レビューやコード解析など実務への応用可能性

ChatGPTやClaudeなどのAI(大規模言語モデル=LLM)には、大きな弱点があります。それは「一度に読める文章の量に限界がある」ということです。

たとえば、分厚い小説をまるごとAIに読ませて「この登場人物の変化を教えて」と聞いても、途中で内容を忘れてしまうのです。この問題を「コンテキストウィンドウの限界」と呼びます。

MIT(マサチューセッツ工科こうか大学)のCSAIL(コンピュータ科学・人工知能研究所)が発表したRLM(Recursive Language Models)は、この壁を一気に100倍も広げる画期的な手法です。やさしく解説します。

RLMとは?ひとことで言うと

RLMは、AIが自分自身を繰り返し呼び出して、長い文章を少しずつ処理する仕組みです。

身近なたとえで説明しましょう。あなたが1,000ページの本の内容を要約しなければならないとします。一度に全ページを読むのは大変ですよね。

そこで、こんな方法を取ります。

  1. まず目次を見て、全体の構成を把握する
  2. 章ごとに分割して、それぞれ要約する
  3. 各章の要約をまとめて、全体の要約を作る

RLMがやっていることは、まさにこれと同じです。AIがプログラムを書いて、自分自身に「この部分を読んで」と指示を出すのです。これを再帰さいき(リカーシブ)と呼びます。

なぜRLMが必要なのか?

現在のAIには「コンテキストウィンドウ」という制限があります。これは、AIが一度に処理できる文字数の上限です。

たとえばGPT-5は約12.8万トークン(日本語で約5〜6万字)まで対応しています。これは新書1冊分くらいの量です。

ところが、実際のビジネスではもっと大量の文書を扱う場面があります。

  • 裁判で使う数百ページの証拠書類
  • 企業の過去10年分の契約書
  • 巨大なソフトウェアの全ソースコード
  • 科学論文数百本の横断的な分析

こうした場面では、現在のAIは力不足です。コンテキストウィンドウを超えると、情報が「け落ちる」現象(コンテキストロットと呼ばれます)が起きてしまいます。

つまり、AIの記憶力の壁を壊すことが、今もっとも求められている技術課題なのです。

RLMの仕組みをやさしく解説

RLMの仕組みは、大きく3つのステップで成り立っています。

ステップ1:文書を「外部メモリ」に保存する

まず、AIに直接長い文章を読ませるのではなく、Python(プログラミング言語)のREPL環境(対話型の実行環境)に文書を保存します。

たとえるなら、テスト中に教科書をそのまま頭に入れるのではなく、机の上に教科書を置いて、必要なページだけ開いて見るイメージです。AIの「頭の中」は軽いまま保たれます。

ステップ2:AIが「コード」を書いて自分で検索する

「ルートモデル」と呼ばれる司令塔しれいとうのAIが、Pythonコードを書いて文書の中身を調べます。たとえば「3章の内容を取り出して」「この単語を含む段落を検索して」といった操作をプログラムで行います。

ここがRLMのすごいところです。AIが自分でプログラムを書いて、自分に再帰的に指示を出すのです。

ステップ3:小さなAIが「作業員」として働く

ルートモデルが全体の計画を立て、「再帰モデル」と呼ばれる軽量なAIが実際の読み取り作業を担当します。大きなAIが指揮官、小さなAIが実行部隊というチーム体制です。

この仕組みにより、コストを抑えながら超大量の文書を処理できます。実際、RLMのコストは1回のクエリあたり約0.99ドル(約150円)で、全文を直接読ませる方法より最大3倍安くなると報告されています。

驚きのベンチマーク結果

RLMの性能は、ベンチマークテスト(AIの実力テスト)で証明しょうめいされています。

BrowseComp-Plus:600万〜1,100万トークンのテスト

このテストでは、600万〜1,100万トークン(日本語で約300万〜500万字相当)という超長文の中から情報を見つける課題が出されます。

  • 通常のGPT-5(そのまま使った場合):正答率0%(完全に失敗)
  • RLM+GPT-5:正答率91.33%

0%が91%になるというのは、「まったく解けなかった問題がほぼ全問正解になった」ということです。これは驚異的な改善です。

OOLONG-Pairs:難しい推論テスト

情報が密に詰まった文書から推論する「OOLONG-Pairs」というテストでは、通常のGPT-5がわずか0.04%しか正解できませんでした。RLMを使うとF1スコア58%にまで向上しました。

小さなモデルでも効果あり

注目すべきは、小さなAIモデルでも大きな効果が出ることです。Qwen3-8B(パラメータ数80億の比較的小さなモデル)にRLMを適用すると、平均28.3%の性能向上が確認されました。しかもその性能は、はるかに大きなGPT-5の通常版に近い水準です。

実用化の可能性と今後の展開

RLMは学術研究だけでなく、実務での活用が期待されています。

すぐに使えそうな分野

  • 法律:数百ページの判例や契約書を横断的に分析し、見落としを防ぐ
  • ソフトウェア開発:巨大なコードベース全体を理解したうえでバグを見つける
  • 医療・製薬:大量の臨床試験データや論文を統合的にレビューする
  • 金融:過去数年分の決算報告書を一括で分析する

オープンソースで公開済み

RLMの大きな特徴は、コードがオープンソースとしてGitHubで公開されていることです。MIT CSAILのAlex L. Zhang氏が公開したライブラリを使えば、GPT-5やClaudeなど既存のAIモデルに「後付け」でRLMの能力を追加できます。

さらに、AI研究企業のPrime Intellectが「RLMEnv」という拡張かくちょう版を開発し、強化きょうか学習と組み合わせた次世代の実装も進んでいます。

今後の展望

研究チームは、AIが自分自身のコンテキスト管理を強化学習で学ぶことが次のブレークスルーになると述べています。これが実現すれば、数週間〜数ヶ月にわたる長期タスクをAIが自律的にこなせるようになると言われています。

つまり、RLMは「コンテキストウィンドウを大きくする」のではなく、「賢くコンテキストを使いこなす」という発想の転換を示した研究なのです。

まとめ

MIT CSAILが発表したRLM(Recursive Language Models)のポイントを振り返ります。

  • RLMはAIが自分自身を再帰的に呼び出すことで、超長文を処理する新手法
  • AIの「記憶力の壁」を約100倍に拡張し、1,000万トークン以上に対応
  • BrowseComp-Plusで正答率0%→91%という劇的な改善を達成
  • コストは従来手法より最大3倍安い
  • 小さなモデルでも平均28.3%の性能向上が確認済み
  • オープンソースで公開されており、既存のAIに後付け可能
  • 法律・開発・医療・金融など幅広い分野で実用化が期待される

「AIの記憶力」は、これまでモデルを大きくすることで解決しようとしてきました。しかしRLMは、「頭を大きくする」のではなく「仕事のやり方を工夫する」というアプローチで壁を突破しました。この発想は、今後のAI開発の方向性を大きく変える可能性があります。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です