AIが「聞きながら話す」時代へ｜元OpenAI CTOの挑戦

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

この記事でわかること：

元OpenAI CTOが始めた新会社「Thinking Machines Lab」が発表した革新的AI
従来のAI対話の「ターン制」がどう変わるのか
リアルタイムで会話できるAIの仕組みと応答速度
日本のビジネスやコミュニケーションへの影響

元OpenAI CTOが挑む新しいAI対話

2026年5月12日、AIの世界に大きな変化をもたらす発表がありました。元OpenAI（オープンエーアイ）のCTO（最高技術責任者）だったミラ・ムラティ氏が創設した「Thinking Machines Lab（シンキング・マシーンズ・ラボ）」が、新しいタイプのAI「Interaction Models（インタラクション・モデル）」を発表したのです。

ムラティ氏は、ChatGPT（チャットジーピーティー）の開発を技術面で支えてきた人物として知られています。その彼女が「今のAI対話には根本的な問題がある」と考え、まったく新しいアプローチに挑戦しています。

OpenAIを退職後、ムラティ氏はThinking Machines Labを立ち上げました。そこで生まれたのが、音声・映像・テキストをリアルタイムで処理できる「Interaction Models」です。つまり、AIが人間のように「聞きながら話す」ことができるようになったのです。

「ターン制」の限界とは

現在のChatGPTやGemini（ジェミニ）などのAIは、「ターン制」という方式で動いています。これは、人間が話し終わるのを待ってからAIが答える、という順番を守る仕組みです。

たとえば、あなたがChatGPTに質問するとき、まず質問を最後まで入力して送信ボタンを押します。そしてAIが答え終わるまで待ちます。この「順番に話す」という流れが「ターン制」です。

この方式には大きな問題があります。人間同士の自然な会話では、相手が話している途中でうなずいたり、「ああ、それは」と言葉を挟んだりします。しかし、従来のAIは、あなたが話し終わるまでじっと待つしかありません。あなたの表情や身振りも見えていません。

ムラティ氏は、この「待つだけのAI」では本当の協働作業ができないと考えました。人間のように、相手の様子を見ながら柔軟に反応できるAIが必要だと判断したのです。

Interaction Modelsの仕組み

Interaction Modelsは「フルデュプレックス（全二重）」という通信方式を採用しています。これは、送信と受信を同時に行える仕組みです。電話で例えると、相手の声を聞きながら自分も話せる状態です。

具体的には、このAIは会話を200ミリ秒（0.2秒）という小さな単位に分割して処理します。つまり、あなたが話している最中も、AIは0.2秒ごとにあなたの音声や映像を確認して、反応を準備しているのです。

このAIができることは驚くほど幅広くなっています。

あなたが考え込んでいる様子を見て、説明を続けるべきか待つべきかを判断する
あなたが話し出したら、AIの発言を途中で止めて聞く姿勢に切り替える
あなたの身振り手振りに反応して、話題を変える
会話中にリアルタイムで翻訳する（英語で話している人と日本語で話している人をつなぐ）
話しながらグラフや図を作成して見せる
会話の流れを保ちながらウェブ検索をする

従来のAIが「質問に答えるロボット」だったとすれば、Interaction Modelsは「一緒に考える同僚」に近い存在です。

驚異の応答速度0.4秒

Thinking Machines Labが発表した小型モデル「TML-Interaction-Small」は、ベンチマーク（性能測定テスト）で驚異的な結果を出しました。応答速度はなんと0.4秒以下です。

これは、GoogleのGemini 3.1 Flash Live（応答速度0.57秒）やOpenAIのGPT Realtime 2.0（応答速度1.18秒）を大きく上回る速さです。人間が会話で感じる「間」は1秒以内と言われているため、0.4秒という速度は「ほぼ人間と同じ」と言えます。

この速度を実現できた理由は、「エンコーダーフリー早期統合」という技術です。従来のAIは、まず音声をテキストに変換（エンコード）してから処理していました。しかし、Interaction Modelsは音声・映像・テキストを最初から統合して処理するため、変換の手間がかかりません。

ただし、現時点で公開されているのは小型モデルのみです。大型モデルは計算量が膨大になるため、リアルタイム処理に必要な速度を保てないという課題があります。Thinking Machines Labは、この課題を解決してから大型モデルを公開する予定です。

日本のビジネスへの影響

Interaction Modelsが普及すると、日本のビジネスシーンも大きく変わる可能性があります。

まず、オンライン会議が劇的に便利になります。日本語を話す参加者と英語を話す参加者が、それぞれの母語で自然に会話できるようになります。AIが間に入ってリアルタイム翻訳するため、通訳を待つ時間がなくなるのです。

次に、カスタマーサポートの質が向上します。従来のAIチャットボットは、顧客が入力した文章にしか反応できませんでした。しかし、Interaction Modelsなら、電話口の顧客の声のトーンや話すスピードから感情を読み取り、適切な対応ができます。

教育分野でも変化が起きるでしょう。生徒が問題を解いている様子を見ながら、AIが「そこまではいいね」「もう少し考えてみよう」とリアルタイムでサポートできます。一方通行の解説ではなく、対話しながら学べる環境が整います。

医療現場では、医師が患者と話している間にAIがカルテを作成したり、関連する医学論文を検索したりすることが可能になります。医師は患者に集中でき、事務作業の負担が減ります。

一方で、課題もあります。日本語は英語に比べて「間」や「言葉にしない表現」が多い言語です。Interaction Modelsが日本語の微妙なニュアンスをどこまで理解できるかは、実際に使ってみないとわかりません。

いつ使えるようになるのか

Thinking Machines Labは、2026年の早い段階で限定的な研究プレビュー版を公開する予定です。これは、フィードバックを集めるための試験版です。一般の人が自由に使えるようになるのは、2026年の後半と見込まれています。

なお、ムラティ氏は2025年にこの会社を設立した際、アンドリーセン・ホロウィッツ（a16z）などの投資家から20億ドル（約3000億円）の資金を調達したと報じられています。これだけの資金があれば、大型モデルの開発も加速するでしょう。

まとめ

元OpenAI CTOのミラ・ムラティ氏が「Thinking Machines Lab」を創設し、新しいAI「Interaction Models」を発表
従来の「ターン制」を超え、音声・映像・テキストをリアルタイムで処理する「フルデュプレックス」方式を採用
応答速度は0.4秒以下で、Google GeminiやOpenAI GPTより速い
日本のビジネス、教育、医療など幅広い分野に影響を与える可能性
2026年内に一般公開予定

AIとの対話は、これまで「質問と回答の繰り返し」でした。しかし、Interaction Modelsは、人間同士が協働するような自然なコミュニケーションを目指しています。この技術が普及すれば、AIは「道具」から「パートナー」へと変わっていくでしょう。

こんな時代だから遊んで学びたい

AIを学ぶオンラインサロン「AIフレンズ」では、生成AIを楽しく、どこよりも優しく学べる環境をご用意しております。

毎週開催されるオンラインセッションでは、リアルタイムで学び合える機会を提供しています。さらに、月に一度のオフラインイベントでは、メンバー同士が直接交流し、アイデアや知識を深めることができます。

「AIフレンズ」の仲間とともに、新しい価値を創造し、可能性を広げてみませんか？

一緒に学び、成長しながら、生成AIを使いこなす力を身につけましょう！

今すぐAIフレンズに参加して、未来への第一歩を踏み出そう！！