- Sakana AI(東京発のAI研究所)が2026年5月3日に「KAME」を公開、ICASSP 2026採択の研究成果
- 「話しながら考える」タンデムアーキテクチャで速さと知識品質を同時に実現
- MT-Benchスコアがベースラインの2.05→6.43に3倍以上向上、応答速度はほぼゼロ遅延を維持
- GPT-4.1・Claude Opus 4.1・Gemini 2.5 Flashと接続可能、バックエンドを自由に切り替え
- MITライセンスでオープンソース公開、GitHub/Hugging Faceで今すぐ試せる
「AIに質問したのに、考える時間がかかって会話がぎこちない」と感じたことはありませんか?これは音声AIが抱える根本的な矛盾——速く答えるか、賢く答えるか——から生まれる問題です。2026年5月3日、東京発のAI研究所Sakana AIがこのジレンマを解決する「KAME(カメ)」を公開しました。
KAMEとは何か|「話しながら考える」音声AIの革新
亀の名を持つ音声AI
KAME(Knowledge-Access Model Extension)は、日本語で「亀」を意味します。
名前に反して、その動作は非常に速いのが特徴です。
Sakana AIが2026年5月3日に公開したKAMEは、リアルタイム音声対話AIです。ICASSP 2026という音声・信号処理分野のトップ国際会議に採択された論文(arXiv:2510.02327)を基に開発されています。
従来の音声AIは「先に全部考えてから話す」方式でした。KAMEは違います。「話しながら並行して考え続ける」という新しい方式を採用しています。
この仕組みにより、応答速度を犠牲にせず、深い知識を持った回答ができるようになりました。
開発元・Sakana AIとは
Sakana AIは、東京を拠点とする研究主導のAIスタートアップです。
Googleなどの大手企業出身の研究者が設立し、日本語特化モデル「Namazu」や「進化的モデルマージ(Evolutionary Model Merge)」など、業界を驚かせる研究を次々と発表してきました。
今回のKAMEもその流れを汲む成果で、音声AI分野に新たなパラダイムを持ち込んでいます。
音声AIの根本課題|速さか賢さか
2種類の音声AIとそれぞれの限界
音声AIには大きく分けて2つの方式があります。
1つ目は「カスケード型」です。ユーザーの声をテキストに変換(STT)→LLMで推論→テキストを音声に変換(TTS)という3段階の処理を順番に行います。
カスケード型は高精度な回答ができる一方で、応答まで2秒以上かかることが多く、会話のテンポが損なわれます。代表例のUnmuteは中央値で2.1秒の応答待機時間があります。
2つ目は「エンド・ツー・エンド型」です。音声を音声として直接処理するため応答は超高速です。
しかしエンド・ツー・エンド型は、大規模言語モデルの豊富な知識を活用しにくく、深い推論が必要な質問には弱い傾向があります。代表的なMoshiのMT-Benchスコアはわずか2.05と、知識品質の課題が明らかです。
「考えてから話す」か「話しながら考える」か
Sakana AIはこのトレードオフを「Think then speak(考えてから話す)」vs.「Speak while thinking(話しながら考える)」と表現しています。
KAMEが目指したのは、エンド・ツー・エンド型の速さを保ちながら、カスケード型の知識品質に近づけることです。
その答えが、タンデムアーキテクチャです。
KAMEの仕組み|タンデムアーキテクチャ詳解
フロントエンドとバックエンドの二層並行処理
KAMEは2つのコンポーネントが並行して動きます。
「フロントエンドS2S(音声→音声)モデル」と「バックエンドテキストLLM」が非同期に動作し、それぞれの長所を組み合わせる構造です。
フロントエンドはMoshiのアーキテクチャをベースにしており、ユーザーが話している最中から即座に音声を処理します。応答遅延はほぼゼロです。
バックエンドには、GPT-4.1・Claude Opus 4.1・Gemini 2.5 Flashなど、好みの大規模LLMを接続できます。バックエンドは非同期で深い推論を行い、その結果を「オラクル(oracle:予言)」としてフロントエンドに随時送り込みます。
オラクルストリーム——第4のデータ通路
Moshiは元々、入力音声・内部思考テキスト・出力音声の3つのストリーム(データの流れ)を持っていました。
KAMEはそこに「オラクルストリーム」という第4のストリームを追加しています。
仕組みはこうです。ユーザーが話すとSTTコンポーネントが部分的なテキスト書き起こしを随時作成し、バックエンドLLMに送信します。LLMはその断片的な入力から「これはこういう質問だろう」と推測し、候補回答(オラクル)をフロントエンドに返します。
フロントエンドはオラクルを受け取り、自分の音声出力をそのオラクルに近づけるよう調整します。バックエンドが更新されるたびに音声の方向性が洗練されていく仕組みです。
合成データでの学習——Simulated Oracle Augmentation
この仕組みを動かすには、フロントエンドモデルが「途中で送られてくるオラクル」を使いこなす特別なトレーニングが必要です。
Sakana AIが考案した「Simulated Oracle Augmentation(模擬オラクル補強)」という手法で、56,582件の合成対話データから学習させています。
学習データはMMLU-Pro・GSM8K・HSSBenchという有名なベンチマークデータセットを会話形式に変換し、TTS(音声合成)で音声化したものです。
性能比較|Moshi・Unmuteとの数字で見る差
MT-Benchで3倍以上の知識品質向上
KAMEの性能を測った指標の一つが「MT-Bench」です。マルチターン会話(複数のやり取り)における推論・STEM・人文科学の品質を0〜10点で評価するベンチマークです。
ベースラインとなるMoshiのMT-Benchスコアは2.05でした。KAMEはこれを6.43まで引き上げました——3倍以上の向上です。
内訳を見ると、推論6.48点・STEM8.34点・人文科学8.56点で、総平均は7.79点(GPT-4.1バックエンド時)。比較対象のUnmuteは7.70点なので、ほぼ同等の知識品質に達しています。
応答速度はほぼゼロのまま維持
注目すべきはスコアだけでなく、応答速度との両立です。
KAMEの応答遅延は中央値でほぼゼロ秒——Moshiとほぼ同じレベルを維持しています。
一方でUnmuteの応答待機時間は中央値2.1秒。KAMEはUnmuteに近い知識品質を、Unmuteより大幅に低い遅延で実現しています。
| モデル | MT-Benchスコア | 応答遅延 |
|---|---|---|
| Moshi(ベースライン) | 2.05 | ほぼゼロ |
| KAME(GPT-4.1バックエンド) | 6.43 | ほぼゼロ |
| KAME(Claude Opus 4.1バックエンド) | 6.23 | ほぼゼロ |
| Unmute(カスケード型) | 7.70 | 2.1秒 |
バックエンドLLMを自由に差し替え
KAMEのもう一つの特長は、バックエンドLLMを再トレーニングなしで差し替えられることです。
フロントエンドはgpt-4.1-nanoで訓練されていますが、推論時はGPT-4.1・Claude Opus 4.1・Gemini 2.5 Flashなど任意のLLMに接続できます。
用途に応じて精度重視のモデルとコスト重視の軽量モデルを使い分けられる柔軟性は、ビジネス利用において大きなメリットになります。
オープンソース公開|誰でも今すぐ試せる
GitHub・Hugging Faceで無料公開
KAMEはMITライセンスで完全に無償公開されています。
推論コードは「SakanaAI/kame」、ファインチューニングコードは「SakanaAI/kame_finetune」としてGitHubに公開、モデルウェイトはHugging Face「SakanaAI/kame」からダウンロード可能です。
Pythonパッケージとして提供されており、インストール後に`server_oracle.py`を実行するだけで、オラクルガイド付きの対話を試せます。
Simulated Oracle Augmentationによるファインチューニングパイプラインも公開されており、独自データで新たなフロントエンドモデルを訓練できます。
日本市場への影響|Sakana AIが切り開く音声AI革命
日本発の技術が世界標準になる可能性
KAMEを開発したSakana AIは、東京を拠点とする日本発のAI研究所です。
ICASSP 2026という音声・信号処理分野のトップ国際会議に採択されたことで、この研究は世界的に認められた成果となりました。
日本はリアルタイム翻訳・接客ロボット・医療問診AIなど、高精度な音声AIへのニーズが高い分野を多く持っています。KAMEのアーキテクチャは、こうした領域に直接応用できる可能性があります。
コールセンター・接客・医療での活用シーン
実際のビジネス活用を想像してみましょう。
あるコールセンター運営企業が、AIによる自動応対システムを導入したいと考えています。従来のカスケード型AIでは「少々お待ちください」という沈黙が2秒以上続き、顧客満足度が下がっていました。KAMEのタンデム方式なら即座に会話を始めつつ、バックエンドのLLMが正確な情報を並行して送り込みます。
レストランの予約・変更・キャンセルを扱う接客AIでも、「空席を確認しながら返答する」ことが自然な会話テンポで実現できます。
高齢者向けの健康相談AIでは、応答が遅いと「壊れている」と誤解されることがあります。KAMEのゼロ遅延特性は、ITに不慣れなユーザー層への普及を後押しします。
GPT-4o Advanced Voice Modeとの違い
OpenAIのGPT-4oにも「Advanced Voice Mode」という高品質な音声対話機能があります。
GPT-4o Voiceは高品質ですが、OpenAIのサービスに依存する閉じたシステムです。KAMEはオープンソースで、バックエンドLLMを自由に選べる開かれたアーキテクチャです。
プライバシーの観点でも、自社インフラ上でKAMEを動かせば会話データが外部に出ないという利点があります。医療・金融・法務など機密情報を扱う業種での採用に向いています。
よくある質問(FAQ)
Q. KAMEは日本語に対応していますか?
A. 現時点で公開されているKAMEのフロントエンドモデルは、英語ベースの学習データで訓練されています。
ただし、バックエンドLLMに日本語対応モデルを接続することは技術的に可能です。Sakana AIは日本語AI研究の実績もあるため、今後の日本語版展開に期待が集まっています。
Q. 動かすのに高スペックなPCが必要ですか?
A. フロントエンドのS2SモデルはMoshiベースで比較的軽量なため、消費者向けGPUでも動作します。
バックエンドLLMをAPI経由(GPT-4.1やClaude Opus 4.1)で呼び出す場合はGPU不要で、APIキーだけで利用できます。自前のLLMをローカルで動かしたい場合は相応のGPUが必要です。
Q. 商用利用はできますか?
A. KAMEのコードはMITライセンスで公開されており、商用利用も可能です。
接続するバックエンドLLM(GPT-4.1など)の利用規約は別途確認が必要です。自社でファインチューニングしたモデルをバックエンドに使えば、完全にコントロールできる構成も作れます。
Q. MoshiとKAMEの違いを一言で教えてください
A. MoshiはリアルタイムのS2Sモデル本体です。KAMEはMoshiに「オラクルストリーム」を追加し、バックエンドLLMの知識を注入できるようにした拡張フレームワークです。
MT-Benchスコアは2.05(Moshi)→6.43(KAME)と3倍以上向上しており、KAMEはMoshiをより賢くする仕組みです。
まとめ
- 2026年5月3日:Sakana AIが「KAME」を公開——音声AIの「速さ vs 賢さ」問題を解決するタンデムアーキテクチャ
- 仕組み:フロントエンドS2Sモデルと非同期バックエンドLLMが並行動作、「オラクルストリーム」でリアルタイムに知識注入
- 性能:MT-BenchスコアがMoshi(2.05)→KAME(6.43)に3倍以上向上、応答遅延はほぼゼロを維持
- 柔軟性:GPT-4.1・Claude Opus 4.1・Gemini 2.5 Flashなど好みのLLMをバックエンドに接続可能
- オープンソース:MITライセンスでGitHub・Hugging Faceから無償利用可能
- 日本への影響:コールセンター・接客・医療など即時応答が重要な分野での革新的な活用が期待される
- ICASSP 2026採択:音声・信号処理分野のトップ国際会議で認められた研究
Sakana AIのKAMEは、「速くて賢い音声AI」という矛盾を技術で解消した革新的な成果です。まずはGitHub(SakanaAI/kame)にアクセスして自分の環境で動かしてみることが、最初の一歩になります。
参考文献
- KAME: Two Heads Are Better Than One — Sakana AI公式(2026年5月)
- KAME: Tandem Architecture for Enhancing Knowledge in Real-Time Speech-to-Speech Conversational AI — arXiv(2510.02327)
- Sakana AI Introduces KAME: A Tandem Speech-to-Speech Architecture — MarkTechPost(2026年5月3日)
- SakanaAI/kame — GitHub
- SakanaAI/kame — Hugging Face
