MITのRLMとは？AIの記憶力を100倍にする新技術を解説

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube

この記事でわかること

MIT（マサチューセッツ工科大学）が発表した「RLM（再帰型言語モデル）」の全容
AIの「記憶力の壁」を100倍に広げる画期的な仕組み
ベンチマークテストで0%→91%という驚きの成績アップ
オープンソースで誰でも使える実装が公開されていること
法律文書レビューやコード解析など実務への応用可能性

ChatGPTやClaudeなどのAI（大規模言語モデル＝LLM）には、大きな弱点があります。それは「一度に読める文章の量に限界がある」ということです。

たとえば、分厚い小説をまるごとAIに読ませて「この登場人物の変化を教えて」と聞いても、途中で内容を忘れてしまうのです。この問題を「コンテキストウィンドウの限界」と呼びます。

MIT（マサチューセッツ工科こうか大学）のCSAIL（コンピュータ科学・人工知能研究所）が発表したRLM（Recursive Language Models）は、この壁を一気に100倍も広げる画期的な手法です。やさしく解説します。

RLMとは？ひとことで言うと

RLMは、AIが自分自身を繰り返し呼び出して、長い文章を少しずつ処理する仕組みです。

身近なたとえで説明しましょう。あなたが1,000ページの本の内容を要約しなければならないとします。一度に全ページを読むのは大変ですよね。

そこで、こんな方法を取ります。

まず目次を見て、全体の構成を把握する
章ごとに分割して、それぞれ要約する
各章の要約をまとめて、全体の要約を作る

RLMがやっていることは、まさにこれと同じです。AIがプログラムを書いて、自分自身に「この部分を読んで」と指示を出すのです。これを再帰さいき（リカーシブ）と呼びます。

なぜRLMが必要なのか？

現在のAIには「コンテキストウィンドウ」という制限があります。これは、AIが一度に処理できる文字数の上限です。

たとえばGPT-5は約12.8万トークン（日本語で約5〜6万字）まで対応しています。これは新書1冊分くらいの量です。

ところが、実際のビジネスではもっと大量の文書を扱う場面があります。

裁判で使う数百ページの証拠書類
企業の過去10年分の契約書
巨大なソフトウェアの全ソースコード
科学論文数百本の横断的な分析

こうした場面では、現在のAIは力不足です。コンテキストウィンドウを超えると、情報が「抜ぬけ落ちる」現象（コンテキストロットと呼ばれます）が起きてしまいます。

つまり、AIの記憶力の壁を壊すことが、今もっとも求められている技術課題なのです。

RLMの仕組みをやさしく解説

RLMの仕組みは、大きく3つのステップで成り立っています。

ステップ1：文書を「外部メモリ」に保存する

まず、AIに直接長い文章を読ませるのではなく、Python（プログラミング言語）のREPL環境（対話型の実行環境）に文書を保存します。

たとえるなら、テスト中に教科書をそのまま頭に入れるのではなく、机の上に教科書を置いて、必要なページだけ開いて見るイメージです。AIの「頭の中」は軽いまま保たれます。

ステップ2：AIが「コード」を書いて自分で検索する

「ルートモデル」と呼ばれる司令塔しれいとうのAIが、Pythonコードを書いて文書の中身を調べます。たとえば「3章の内容を取り出して」「この単語を含む段落を検索して」といった操作をプログラムで行います。

ここがRLMのすごいところです。AIが自分でプログラムを書いて、自分に再帰的に指示を出すのです。

ステップ3：小さなAIが「作業員」として働く

ルートモデルが全体の計画を立て、「再帰モデル」と呼ばれる軽量なAIが実際の読み取り作業を担当します。大きなAIが指揮官、小さなAIが実行部隊というチーム体制です。

この仕組みにより、コストを抑えながら超大量の文書を処理できます。実際、RLMのコストは1回のクエリあたり約0.99ドル（約150円）で、全文を直接読ませる方法より最大3倍安くなると報告されています。

驚きのベンチマーク結果

RLMの性能は、ベンチマークテスト（AIの実力テスト）で証明しょうめいされています。

BrowseComp-Plus：600万〜1,100万トークンのテスト

このテストでは、600万〜1,100万トークン（日本語で約300万〜500万字相当）という超長文の中から情報を見つける課題が出されます。

通常のGPT-5（そのまま使った場合）：正答率0%（完全に失敗）
RLM＋GPT-5：正答率91.33%

0%が91%になるというのは、「まったく解けなかった問題がほぼ全問正解になった」ということです。これは驚異的な改善です。

OOLONG-Pairs：難しい推論テスト

情報が密に詰まった文書から推論する「OOLONG-Pairs」というテストでは、通常のGPT-5がわずか0.04%しか正解できませんでした。RLMを使うとF1スコア58%にまで向上しました。

小さなモデルでも効果あり

注目すべきは、小さなAIモデルでも大きな効果が出ることです。Qwen3-8B（パラメータ数80億の比較的小さなモデル）にRLMを適用すると、平均28.3%の性能向上が確認されました。しかもその性能は、はるかに大きなGPT-5の通常版に近い水準です。

実用化の可能性と今後の展開

RLMは学術研究だけでなく、実務での活用が期待されています。

すぐに使えそうな分野

法律：数百ページの判例や契約書を横断的に分析し、見落としを防ぐ
ソフトウェア開発：巨大なコードベース全体を理解したうえでバグを見つける
医療・製薬：大量の臨床試験データや論文を統合的にレビューする
金融：過去数年分の決算報告書を一括で分析する

オープンソースで公開済み

RLMの大きな特徴は、コードがオープンソースとしてGitHubで公開されていることです。MIT CSAILのAlex L. Zhang氏が公開したライブラリを使えば、GPT-5やClaudeなど既存のAIモデルに「後付け」でRLMの能力を追加できます。

さらに、AI研究企業のPrime Intellectが「RLMEnv」という拡張かくちょう版を開発し、強化きょうか学習と組み合わせた次世代の実装も進んでいます。

今後の展望

研究チームは、AIが自分自身のコンテキスト管理を強化学習で学ぶことが次のブレークスルーになると述べています。これが実現すれば、数週間〜数ヶ月にわたる長期タスクをAIが自律的にこなせるようになると言われています。

つまり、RLMは「コンテキストウィンドウを大きくする」のではなく、「賢くコンテキストを使いこなす」という発想の転換を示した研究なのです。

まとめ

MIT CSAILが発表したRLM（Recursive Language Models）のポイントを振り返ります。

RLMはAIが自分自身を再帰的に呼び出すことで、超長文を処理する新手法
AIの「記憶力の壁」を約100倍に拡張し、1,000万トークン以上に対応
BrowseComp-Plusで正答率0%→91%という劇的な改善を達成
コストは従来手法より最大3倍安い
小さなモデルでも平均28.3%の性能向上が確認済み
オープンソースで公開されており、既存のAIに後付け可能
法律・開発・医療・金融など幅広い分野で実用化が期待される

「AIの記憶力」は、これまでモデルを大きくすることで解決しようとしてきました。しかしRLMは、「頭を大きくする」のではなく「仕事のやり方を工夫する」というアプローチで壁を突破しました。この発想は、今後のAI開発の方向性を大きく変える可能性があります。

参考文献

こんな時代だから遊んで学びたい

AIを学ぶオンラインサロン「AIフレンズ」では、生成AIを楽しく、どこよりも優しく学べる環境をご用意しております。

毎週開催されるオンラインセッションでは、リアルタイムで学び合える機会を提供しています。さらに、月に一度のオフラインイベントでは、メンバー同士が直接交流し、アイデアや知識を深めることができます。

「AIフレンズ」の仲間とともに、新しい価値を創造し、可能性を広げてみませんか？

一緒に学び、成長しながら、生成AIを使いこなす力を身につけましょう！

今すぐAIフレンズに参加して、未来への第一歩を踏み出そう！！