- 元OpenAI CTOのMira Murati氏の新会社が、新型AI「Interaction Models」を公開しました
- 人間のように「聞きながら話す」全二重型で、応答はわずか0.4秒です
- OpenAIの音声AIは応答1.18秒。約3倍速い計算になります
- まだ一般公開はされておらず、2026年内に広く提供される予定です
- 日本のコールセンターや家庭教師アプリに大きな影響が出そうです
AIと話していて、「返事が遅い」「こちらの話を最後まで聞いてくれない」と感じたことはありませんか。元OpenAIのMira Murati氏が立ち上げた会社が、その不満を根本から解決するAIを発表しました。応答はたった0.4秒。人間どうしの会話とほぼ同じ速さです。
Thinking Machinesが「Interaction Models」を公開
2026年5月、Thinking Machines Lab(シンキング・マシンズ・ラボ)が新しいAIを発表しました。
名前は「Interaction Models」(インタラクションモデル=対話に特化したAI)です。
この会社を率いるのは、Mira Murati(ミラ・ムラティ)氏。ChatGPTを生んだOpenAIで、技術のトップを務めていた人物です。
同社にとって、これは2つ目の製品です。1つ目は開発者向けの「Tinker」というAPI(プログラムをつなぐ仕組み)でした。
今回のいちばんの特徴は、AIが「聞きながら話す」ことです。今は研究プレビュー(限定公開のお試し版)として発表されました。
「聞きながら話す」とは何が違う?
いままでのAIは「トランシーバー型」
これまでの音声AIは、片方が話し終わるまで、もう片方が黙って待つ方式でした。これを半二重(はんにじゅう)と呼びます。
トランシーバーを思い出してください。「どうぞ」と言うまで、相手は話せません。
あなたが「えーと」と考えている間も、AIはただ待っているだけ。会話のテンポが悪くなりがちでした。
新しいAIは「電話型」
Interaction Modelsは全二重(ぜんにじゅう)方式です。聞く・話す・見るを同時にこなします。
相手が話している最中に「なるほど」「うんうん」と相づち(バックチャネル)を打てます。
たとえば、あなたがコードを書いていてバグを入れた瞬間、「あ、そこ間違っていますよ」と自然に割り込めます。
仕組みとしては、約200ミリ秒(0.2秒)ごとに、音・映像・文字を細かく処理し続けています。だから人間のように反応できるのです。
0.4秒応答の中身|技術のしくみ
「後付け」をやめた設計
従来の音声AIは、複数の部品をつなげて作っていました。
「音声→文字に変換→AIが考える→文字→音声に変換」という流れです。
この方式は、バトンを何度も渡すリレーのようなもの。受け渡しのたびに遅れ(ラグ)が積み重なります。
Interaction Modelsは、音声や映像を最初から1つのAIの中で一緒に学習させました。巨大な変換部品(Whisperなど)に頼らず、生の音データと画像を軽い仕組みで取り込みます。
ベンチマークの数字
モデル名は「TML-Interaction-Small」です。2,760億パラメータの混合エキスパート型(必要な部分だけ動かす省エネ設計)で、実際に動くのは120億パラメータです。
応答(ターンテイキング=話す番の切り替え)の速さは0.40秒。
Googleの「Gemini 3.1 Flash Live」は0.57秒、OpenAIの「GPT-realtime-2.0」は1.18秒でした。
会話の自然さを測るテスト「FD-bench V1.5」では77.8点。OpenAI(46.8点)のほぼ2倍のスコアです。
Mira Muratiとは?会社の背景と資金
Mira Murati氏は、OpenAIで技術トップ(CTO=最高技術責任者)を務めた人物です。2024年にOpenAIを退社しました。
その後、2025年2月にThinking Machines Labを設立します。
2025年7月には、約20億ドル(約3,000億円)を一度に調達しました。会社の価値は120億ドル(約1.8兆円)と評価されています。
出資した企業は、Andreessen Horowitz、NVIDIA、AMD、Cisco、Jane Streetなど。名だたる顔ぶれです。
さらに2026年3月、NVIDIAと提携しました。大規模な計算資源(次世代チップ「Vera Rubin」を1ギガワット規模)を確保しています。
競合比較|OpenAI・Googleの音声AIと何が違う
リアルタイム音声AIは、すでに激しい競争になっています。主な3社を比べてみましょう。
- OpenAI Realtime API:2025年8月に正式提供。2026年5月に推論対応版や70言語の翻訳版を追加。応答は約1.18秒
- Google Gemini 3.1 Flash Live:2026年3月にプレビュー公開。1分あたり約$0.0009と低価格で、カメラ入力にも対応。応答は0.57秒
- Thinking Machines Interaction Models:最初から1つのAIで全二重を実現。応答0.40秒で最速
大きな違いは設計思想です。既存サービスの多くは部品をつなげた「半二重」が中心でした。
Interaction Modelsは、最初から「聞きながら話す」前提で1つのAIとして作られています。
ただし価格はまだ非公開です。今のところ、速さと会話の自然さで差をつけている段階です。
日本のユーザー・企業にどう関係する?
まず正直にお伝えします。Interaction Modelsはまだ研究プレビュー段階で、日本を含め一般には使えません。
それでも、応用できる場面は日本でも需要が大きいです。コールセンター、家庭教師アプリ、音声アシスタントなどが代表例です。
ある日本のコールセンターを想像してみてください。お客様が困っている話を、AIが「はい」「なるほど」と相づちを打ちながら聞きます。話の途中でも要点を整理し、その場で別の言語に翻訳できます。
日本企業はすでにOpenAI RealtimeやGemini Liveを業務に使い始めています。選択肢が1つ増えることになります。
とくに多言語のリアルタイム翻訳は、訪日客の対応や海外取引で大きな武器になります。日本語対応がいつ来るかが、今後の注目点です。
よくある質問(FAQ)
Q1. いつから日本で使えますか?
研究プレビューは数か月以内、広い提供は2026年内が予定です。ただし日本での提供時期は、まだ発表されていません。
Q2.「全二重」と「半二重」は何が違いますか?
半二重は交互にしか話せない方式です。全二重は人間どうしのように、同時に聞いて話せる方式です。
Q3. ChatGPTの音声モードと何が違いますか?
ChatGPTは基本的に、こちらが話し終わるのを待ちます。Interaction Modelsは話の途中でも相づちや割り込みができます。
Q4. 個人でも使えますか?
現時点では研究プレビューのみです。まずは企業や開発者向けに提供される見込みです。
Q5. 日本語に対応しますか?
今のところ日本語対応は公表されていません。競合各社は多言語化を進めており、追随する可能性は十分あります。
まとめ
- 元OpenAI CTOのMira Murati氏の会社が、新型AI「Interaction Models」を公開しました
- 「聞きながら話す」全二重型で、応答は0.4秒。人間の会話とほぼ同じ速さです
- OpenAI(1.18秒)やGoogle(0.57秒)より速く、会話の自然さも約2倍のスコアです
- 音声を後付けせず、最初から1つのAIとして学習させた設計が強みです
- まだ研究プレビュー段階で、日本での提供時期や日本語対応は未発表です
まずは数か月以内に始まる研究プレビューと、価格・日本語対応の発表をチェックしておきましょう。
参考文献
- Mira Murati’s Thinking Machines previews ‘interaction models’ — Semafor
- Thinking Machines shows off preview of near-realtime AI voice and video conversation — VentureBeat
- Thinking Machines wants to build an AI that actually listens while it talks — TechCrunch
- Interaction Models: A Native Multimodal Architecture — MarkTechPost
- Mira Murati’s Thinking Machines Lab is worth $12B in seed round — TechCrunch


