IBM、商用無料の埋め込みAI公開|RAGが進化

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • IBMが2026年5月14日、多言語の埋め込みAI「Granite Embedding Multilingual R2」を公開しました
  • Apache 2.0ライセンスなので、企業でも無料・無制限で商用利用できます
  • 97M版と311M版の2種類があり、小さいのに検索精度はトップクラスです
  • 200以上の言語に対応し、日本語の文章もしっかり扱えます
  • RAG(社内文書を検索して答えるAI)の心臓部として、すぐに使えます

「社内のマニュアルを覚えてくれるAIチャットボットを作りたい」。そう思ったことはありませんか。その夢を一番下で支えているのが埋め込みモデルという地味な技術です。IBMがその新作を無料で公開しました。何がすごいのか、やさしく解説します。

そもそも「埋め込みモデル」とは何でしょうか?

埋め込みモデル(Embedding Model)とは、文章の意味を「数字の列」に変換するAIです。

たとえば「猫がかわいい」と「ネコが愛らしい」は、言葉は違っても意味はほぼ同じです。

埋め込みモデルは、この2つをとても近い数字に変換します。意味が遠い文章は、遠い数字になります。

この仕組みがあると、キーワードが一致しなくても「意味が近い文章」を探せます。これが「意味で探す検索」の正体です。

そして、いま話題のRAG(検索しながら答えるAI)の心臓部でもあります。RAGは、まず社内文書から質問に近い部分を探し、その内容をAIに渡して答えさせる仕組みです。

つまり、埋め込みモデルの精度が低いと、AIは見当違いの資料を読んで間違った答えを返します。検索の良し悪しが、AIの回答品質をそのまま決めるのです。だからこそ、ここを担うモデル選びはとても重要になります。

IBMが公開した「Granite Embedding Multilingual R2」とは

IBMは2026年5月14日、新しい多言語の埋め込みモデル「Granite Embedding Multilingual R2」を公開しました。

用意されたのは2種類です。ひとつは軽量な97M版(パラメータ9700万・384次元)、もうひとつは高精度な311M版(パラメータ3億1100万・768次元)です。

パラメータとは、AIの「脳の大きさ」のようなものです。数が多いほど賢い傾向ですが、その分だけ動かすのに重くなります。

R2は、最新の「ModernBERT」という設計を採用しました。前バージョンのR1から、中身が大きく作り直されています。

注目すべき4つのポイント

①小さいのに、検索精度はトップクラス

多言語検索の代表的なテスト(MTEB Multilingual Retrieval)で、97M版は60.3点を記録しました。

これは、パラメータ1億未満の公開モデルの中で最高スコアです。前のR1から12.2点も伸びました。

大きい311M版は65.2点で、5億パラメータ未満のクラスでは堂々の2位です。「軽さ」と「賢さ」を両立した点が高く評価されています。

②超・長文に対応(R1の64倍)

R2は一度に32,768トークンもの長い文章を読み込めます。トークンは、AIが文章を区切る単位だと考えてください。

前のR1は512トークンまででした。つまり、扱える長さが一気に64倍になったのです。

長い契約書やマニュアルを、ぶつ切りにせず丸ごと理解できます。長文を扱うテストでは、堂々の1位を獲得しました。

③200以上の言語に対応(日本語もOK)

R2は200を超える言語に対応します。そのうち52言語は特に丁寧に学習されています。

もちろん日本語にも対応しています。IBMの公式説明でも、日本語の質問例が紹介されています。

さらに、PythonやJavaなど9種類のプログラミング言語の検索も得意です。社内のソースコード検索にも使えます。

④Apache 2.0で、商用も完全無料

R2はApache 2.0ライセンスで公開されています。これは「商用利用も改変も自由」という、とてもゆるいルールです。

企業がサービスに組み込んでも、利用料は一切かかりません。しかも学習データに権利リスクのあるデータ(MS-MARCO)を使っていません。

「使ったら後で訴えられないか」という企業の心配に、最初から配慮した設計です。

他の埋め込みモデルと何が違うのでしょうか?

埋め込みモデルには、有名なライバルがたくさんあります。整理してみましょう。

  • OpenAI text-embedding-3:使いやすいが、API利用で文字数に応じた課金が発生する
  • Cohere embed-v4:多言語ビジネス文書に強いが、こちらも有料API中心
  • ruri-v3:日本語に特化した国産モデルで、日本語タスクは非常に高精度
  • multilingual-e5 / jina / gte:無料の多言語モデルだが、同サイズではR2が精度で上回る

R2の強みは「無料・自社サーバーで動く・小さい・ライセンスが安全」が全部そろっている点です。

OpenAIやCohereは便利ですが、文書量が増えるほど課金がふくらみます。R2なら自社のパソコンやサーバーで動かせるので、使い放題です。

面白い機能もあります。311M版はMatryoshka(マトリョーシカ)という仕組みに対応します。

これは入れ子人形のように、数字の列を途中で短く切れる機能です。768次元を256次元に削れば、保存容量は約3分の1。それでも精度はほとんど落ちません。

日本のユーザーや企業にとっての意味

日本企業にとって、R2のうれしい点は「データを外に出さなくていい」ことです。

OpenAIなどのAPIを使うと、検索したい文章を一度クラウドに送ります。機密文書では、これを嫌う企業が少なくありません。

R2は自社のサーバーや、場合によってはCPUだけのパソコンでも動きます。情報を社外に出さずにRAGを構築できます。

コスト面の利点も大きいです。API課金がゼロなので、社内文書が何万件あっても費用は増えません。

では国産のruri-v3とどちらが良いのでしょうか。日本語だけを扱うならruri-v3も強力な選択肢です。

一方、英語や中国語の資料も混ざる多言語環境や、長文を丸ごと扱いたい場合はR2が向いています。用途で使い分けるのが賢いやり方です。

実際にどんな場面で使えるのでしょうか?

具体的なシーンを3つ想像してみましょう。

ひとつ目。ある中小企業のサポート担当者は、毎日同じような問い合わせに追われています。社内マニュアルは数百ページ。R2でマニュアル全体を検索できるチャットボットを作れば、お客様が自分で答えにたどり着けます。担当者の負担は大きく減ります。

ふたつ目。法律事務所が、過去の判例や契約書を検索したいとします。これらは超・機密情報です。R2を事務所内のサーバーで動かせば、データを一切外に出さずに「意味で探す検索」が実現します。

みっつ目。海外にも売る通販サイトの例です。日本語・英語・中国語の商品説明が混在していても、R2なら言語をまたいで近い商品を探せます。「赤い長財布」と英語で検索しても、日本語の商品がヒットします。

よくある質問(FAQ)

Q1. 本当に無料で商用利用できますか?

はい。Apache 2.0ライセンスなので、企業のサービスに組み込んでも利用料はかかりません。改変も再配布も自由です。

Q2. 使うにはプログラミングの知識が必要ですか?

導入には多少のプログラミングが必要です。ただしSentence TransformersやLangChainに対応しており、数行のコードで呼び出せます。エンジニアがいれば短時間で組み込めます。

Q3. 97M版と311M版、どちらを選べばいいですか?

速さと軽さを最優先するなら97M版です。検索精度を最優先するなら311M版を選びましょう。迷ったら、まず軽い97M版で試すのがおすすめです。

Q4. すでにOpenAIのAPIを使っています。乗り換えるべきですか?

文書量が多くAPI課金が負担なら、乗り換える価値は十分あります。ただし埋め込みモデルを変えると、検索用データの作り直し(再インデックス)が必要です。慎重に検証してから移行しましょう。

Q5. 日本語の精度はどのくらいですか?

52の重点言語に日本語が含まれ、実用十分な精度です。ただし日本語のみの用途では、国産のruri-v3が上回る場面もあります。比較テストをおすすめします。

まとめ

今回のポイントを振り返ります。

  • IBMが多言語埋め込みAI「Granite Embedding Multilingual R2」を2026年5月14日に公開した
  • Apache 2.0で商用も完全無料、学習データの権利リスクにも配慮されている
  • 97M版・311M版があり、小さいのに検索精度はトップクラス
  • 32Kの長文・200以上の言語(日本語含む)に対応し、RAGの心臓部に最適
  • データを外に出さずに使えるため、日本企業の社内文書検索と相性が良い

まずは小さな社内文書で、無料のR2を試しに動かしてみてはいかがでしょうか。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です