聞きながら話すAI登場｜Murati新作0.4秒応答

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

AIと話していて、「返事が遅い」「こちらの話を最後まで聞いてくれない」と感じたことはありませんか。元OpenAIのMira Murati氏が立ち上げた会社が、その不満を根本から解決するAIを発表しました。応答はたった0.4秒。人間どうしの会話とほぼ同じ速さです。

Thinking Machinesが「Interaction Models」を公開

2026年5月、Thinking Machines Lab（シンキング・マシンズ・ラボ）が新しいAIを発表しました。

名前は「Interaction Models」（インタラクションモデル＝対話に特化したAI）です。

この会社を率いるのは、Mira Murati（ミラ・ムラティ）氏。ChatGPTを生んだOpenAIで、技術のトップを務めていた人物です。

同社にとって、これは2つ目の製品です。1つ目は開発者向けの「Tinker」というAPI（プログラムをつなぐ仕組み）でした。

今回のいちばんの特徴は、AIが「聞きながら話す」ことです。今は研究プレビュー（限定公開のお試し版）として発表されました。

これまでの音声AIは、片方が話し終わるまで、もう片方が黙って待つ方式でした。これを半二重（はんにじゅう）と呼びます。

トランシーバーを思い出してください。「どうぞ」と言うまで、相手は話せません。

あなたが「えーと」と考えている間も、AIはただ待っているだけ。会話のテンポが悪くなりがちでした。

Interaction Modelsは全二重（ぜんにじゅう）方式です。聞く・話す・見るを同時にこなします。

相手が話している最中に「なるほど」「うんうん」と相づち（バックチャネル）を打てます。

たとえば、あなたがコードを書いていてバグを入れた瞬間、「あ、そこ間違っていますよ」と自然に割り込めます。

仕組みとしては、約200ミリ秒（0.2秒）ごとに、音・映像・文字を細かく処理し続けています。だから人間のように反応できるのです。

従来の音声AIは、複数の部品をつなげて作っていました。

「音声→文字に変換→AIが考える→文字→音声に変換」という流れです。

この方式は、バトンを何度も渡すリレーのようなもの。受け渡しのたびに遅れ（ラグ）が積み重なります。

Interaction Modelsは、音声や映像を最初から1つのAIの中で一緒に学習させました。巨大な変換部品（Whisperなど）に頼らず、生の音データと画像を軽い仕組みで取り込みます。

モデル名は「TML-Interaction-Small」です。2,760億パラメータの混合エキスパート型（必要な部分だけ動かす省エネ設計）で、実際に動くのは120億パラメータです。

応答（ターンテイキング＝話す番の切り替え）の速さは0.40秒。

Googleの「Gemini 3.1 Flash Live」は0.57秒、OpenAIの「GPT-realtime-2.0」は1.18秒でした。

会話の自然さを測るテスト「FD-bench V1.5」では77.8点。OpenAI（46.8点）のほぼ2倍のスコアです。

Mira Murati氏は、OpenAIで技術トップ（CTO＝最高技術責任者）を務めた人物です。2024年にOpenAIを退社しました。

その後、2025年2月にThinking Machines Labを設立します。

2025年7月には、約20億ドル（約3,000億円）を一度に調達しました。会社の価値は120億ドル（約1.8兆円）と評価されています。

出資した企業は、Andreessen Horowitz、NVIDIA、AMD、Cisco、Jane Streetなど。名だたる顔ぶれです。

さらに2026年3月、NVIDIAと提携しました。大規模な計算資源（次世代チップ「Vera Rubin」を1ギガワット規模）を確保しています。

リアルタイム音声AIは、すでに激しい競争になっています。主な3社を比べてみましょう。

OpenAI Realtime API：2025年8月に正式提供。2026年5月に推論対応版や70言語の翻訳版を追加。応答は約1.18秒
Google Gemini 3.1 Flash Live：2026年3月にプレビュー公開。1分あたり約$0.0009と低価格で、カメラ入力にも対応。応答は0.57秒
Thinking Machines Interaction Models：最初から1つのAIで全二重を実現。応答0.40秒で最速

大きな違いは設計思想です。既存サービスの多くは部品をつなげた「半二重」が中心でした。

Interaction Modelsは、最初から「聞きながら話す」前提で1つのAIとして作られています。

ただし価格はまだ非公開です。今のところ、速さと会話の自然さで差をつけている段階です。