この記事でわかること:
- 元OpenAI CTOが始めた新会社「Thinking Machines Lab」が発表した革新的AI
- 従来のAI対話の「ターン制」がどう変わるのか
- リアルタイムで会話できるAIの仕組みと応答速度
- 日本のビジネスやコミュニケーションへの影響
元OpenAI CTOが挑む新しいAI対話
2026年5月12日、AIの世界に大きな変化をもたらす発表がありました。元OpenAI(オープンエーアイ)のCTO(最高技術責任者)だったミラ・ムラティ氏が創設した「Thinking Machines Lab(シンキング・マシーンズ・ラボ)」が、新しいタイプのAI「Interaction Models(インタラクション・モデル)」を発表したのです。
ムラティ氏は、ChatGPT(チャットジーピーティー)の開発を技術面で支えてきた人物として知られています。その彼女が「今のAI対話には根本的な問題がある」と考え、まったく新しいアプローチに挑戦しています。
OpenAIを退職後、ムラティ氏はThinking Machines Labを立ち上げました。そこで生まれたのが、音声・映像・テキストをリアルタイムで処理できる「Interaction Models」です。つまり、AIが人間のように「聞きながら話す」ことができるようになったのです。
「ターン制」の限界とは
現在のChatGPTやGemini(ジェミニ)などのAIは、「ターン制」という方式で動いています。これは、人間が話し終わるのを待ってからAIが答える、という順番を守る仕組みです。
たとえば、あなたがChatGPTに質問するとき、まず質問を最後まで入力して送信ボタンを押します。そしてAIが答え終わるまで待ちます。この「順番に話す」という流れが「ターン制」です。
この方式には大きな問題があります。人間同士の自然な会話では、相手が話している途中でうなずいたり、「ああ、それは」と言葉を挟んだりします。しかし、従来のAIは、あなたが話し終わるまでじっと待つしかありません。あなたの表情や身振りも見えていません。
ムラティ氏は、この「待つだけのAI」では本当の協働作業ができないと考えました。人間のように、相手の様子を見ながら柔軟に反応できるAIが必要だと判断したのです。
Interaction Modelsの仕組み
Interaction Modelsは「フルデュプレックス(全二重)」という通信方式を採用しています。これは、送信と受信を同時に行える仕組みです。電話で例えると、相手の声を聞きながら自分も話せる状態です。
具体的には、このAIは会話を200ミリ秒(0.2秒)という小さな単位に分割して処理します。つまり、あなたが話している最中も、AIは0.2秒ごとにあなたの音声や映像を確認して、反応を準備しているのです。
このAIができることは驚くほど幅広くなっています。
- あなたが考え込んでいる様子を見て、説明を続けるべきか待つべきかを判断する
- あなたが話し出したら、AIの発言を途中で止めて聞く姿勢に切り替える
- あなたの身振り手振りに反応して、話題を変える
- 会話中にリアルタイムで翻訳する(英語で話している人と日本語で話している人をつなぐ)
- 話しながらグラフや図を作成して見せる
- 会話の流れを保ちながらウェブ検索をする
従来のAIが「質問に答えるロボット」だったとすれば、Interaction Modelsは「一緒に考える同僚」に近い存在です。
驚異の応答速度0.4秒
Thinking Machines Labが発表した小型モデル「TML-Interaction-Small」は、ベンチマーク(性能測定テスト)で驚異的な結果を出しました。応答速度はなんと0.4秒以下です。
これは、GoogleのGemini 3.1 Flash Live(応答速度0.57秒)やOpenAIのGPT Realtime 2.0(応答速度1.18秒)を大きく上回る速さです。人間が会話で感じる「間」は1秒以内と言われているため、0.4秒という速度は「ほぼ人間と同じ」と言えます。
この速度を実現できた理由は、「エンコーダーフリー早期統合」という技術です。従来のAIは、まず音声をテキストに変換(エンコード)してから処理していました。しかし、Interaction Modelsは音声・映像・テキストを最初から統合して処理するため、変換の手間がかかりません。
ただし、現時点で公開されているのは小型モデルのみです。大型モデルは計算量が膨大になるため、リアルタイム処理に必要な速度を保てないという課題があります。Thinking Machines Labは、この課題を解決してから大型モデルを公開する予定です。
日本のビジネスへの影響
Interaction Modelsが普及すると、日本のビジネスシーンも大きく変わる可能性があります。
まず、オンライン会議が劇的に便利になります。日本語を話す参加者と英語を話す参加者が、それぞれの母語で自然に会話できるようになります。AIが間に入ってリアルタイム翻訳するため、通訳を待つ時間がなくなるのです。
次に、カスタマーサポートの質が向上します。従来のAIチャットボットは、顧客が入力した文章にしか反応できませんでした。しかし、Interaction Modelsなら、電話口の顧客の声のトーンや話すスピードから感情を読み取り、適切な対応ができます。
教育分野でも変化が起きるでしょう。生徒が問題を解いている様子を見ながら、AIが「そこまではいいね」「もう少し考えてみよう」とリアルタイムでサポートできます。一方通行の解説ではなく、対話しながら学べる環境が整います。
医療現場では、医師が患者と話している間にAIがカルテを作成したり、関連する医学論文を検索したりすることが可能になります。医師は患者に集中でき、事務作業の負担が減ります。
一方で、課題もあります。日本語は英語に比べて「間」や「言葉にしない表現」が多い言語です。Interaction Modelsが日本語の微妙なニュアンスをどこまで理解できるかは、実際に使ってみないとわかりません。
いつ使えるようになるのか
Thinking Machines Labは、2026年の早い段階で限定的な研究プレビュー版を公開する予定です。これは、フィードバックを集めるための試験版です。一般の人が自由に使えるようになるのは、2026年の後半と見込まれています。
なお、ムラティ氏は2025年にこの会社を設立した際、アンドリーセン・ホロウィッツ(a16z)などの投資家から20億ドル(約3000億円)の資金を調達したと報じられています。これだけの資金があれば、大型モデルの開発も加速するでしょう。
まとめ
- 元OpenAI CTOのミラ・ムラティ氏が「Thinking Machines Lab」を創設し、新しいAI「Interaction Models」を発表
- 従来の「ターン制」を超え、音声・映像・テキストをリアルタイムで処理する「フルデュプレックス」方式を採用
- 応答速度は0.4秒以下で、Google GeminiやOpenAI GPTより速い
- 日本のビジネス、教育、医療など幅広い分野に影響を与える可能性
- 2026年内に一般公開予定
AIとの対話は、これまで「質問と回答の繰り返し」でした。しかし、Interaction Modelsは、人間同士が協働するような自然なコミュニケーションを目指しています。この技術が普及すれば、AIは「道具」から「パートナー」へと変わっていくでしょう。

