Gemini新音声翻訳｜自分の声のまま70言語

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

Googleが「Gemini 3.5 Live Translate」を2026年6月9日に公開。70以上の言語をほぼリアルタイムで音声翻訳します
話している途中から数秒遅れで訳が流れ、声の高さや話すリズムまで本人そっくりに再現します
Google翻訳アプリ（Android/iOS）で登録不要・無料で使え、日本語にも対応しています
従来の「話し終わってから訳す」方式の10〜20秒待ちを、約3秒まで縮めました
Google MeetやAPIにも展開。海外旅行・国際会議・接客の現場が大きく変わりそうです

海外旅行で道をたずねたいのに、言葉が出てこなくて困った経験はありませんか。Googleが2026年6月9日に公開した「Gemini 3.5 Live Translate」は、そんな悩みをまるごと解決してくれる新しいAI翻訳です。スマホ1台で、相手の話を聞きながらほぼ同時に訳してくれます。しかも自分の声のまま外国語に変わります。この記事では、何がすごいのか、日本でどう使えるのかをやさしく解説します。

Gemini 3.5 Live Translateとは？

Gemini 3.5 Live Translate（ジェミニ・ライブ・トランスレート）は、Googleが作った音声をリアルタイムで翻訳するAIです。

「リアルタイム」とは、相手が話している最中から、ほんの数秒遅れで訳した音声が流れてくるという意味です。

2026年6月9日に公開されました。対応する言語は70以上です。

言語の組み合わせは2,000通り以上にのぼります。日本語と英語はもちろん、日本語とスペイン語など、英語をはさまない直接の翻訳もできます。

いちばんの特徴は「自分の声のまま」訳されること

これまでの翻訳アプリは、訳した文章を機械っぽい合成音声で読み上げていました。

Gemini 3.5は違います。話す人の声の高さ・話すスピード・抑揚（声の上げ下げ）をそのまま残して訳します。

つまり、英語が話せなくても、まるで自分が流ちょうな英語を話しているように聞こえるのです。

どうやって動くの？仕組みをやさしく解説

すごさを理解するには、これまでの翻訳との「待ち時間」の違いを知るのが近道です。

従来は「3段階のリレー」で時間がかかっていた

古い音声翻訳は、次の3つの作業を順番に行っていました。

①話した言葉を文字にする（書き起こし）
②その文字を別の言語に訳す
③訳した文字を音声に変える（読み上げ）

この方式だと、相手が話し終わるまで①を始められません。結果として、訳が出るまで10〜20秒もかかっていました。

会話のテンポが崩れて、気まずい沈黙が生まれるのが悩みでした。

Gemini 3.5は「同時並行」で動く

Gemini 3.5は、この3つの作業を同時に並行して進めます。

話している最中から少しずつ訳していくので、相手が話し終わるのを待ちません。

その結果、訳が出るまでの遅れはわずか1〜3秒になりました。独立した計測では、最初の音声が出るまで約2,947ミリ秒（およそ3秒）という結果も報告されています。

さらに、カフェの雑音や複数人が同時に話す場面でも、聞き取って訳せるよう作られています。

どこで使える？3つの場所で同時公開

Googleは今回、3つのサービスで同時にこの機能を展開しました。それぞれ使える人が違います。

①Google翻訳アプリ（一般ユーザー向け）

いちばん身近なのがこれです。スマホのGoogle翻訳アプリに入りました。

AndroidとiOSの両方で、2026年6月9日から世界中に順次公開されています。登録も不要で無料です。

旅行先や買い物中に、その場でサッと使えるのが魅力です。

②Google Meet（仕事・会議向け）

オンライン会議ツールのGoogle Meetにも入りました。

こちらは仕事向けのGoogle Workspace（ワークスペース）を契約している一部企業に、まず「プレビュー版」として提供されます。

1つの会議の中で2,000通り以上の言語の組み合わせに対応します。多国籍メンバーの会議がぐっとスムーズになります。

③開発者向けAPI

アプリやサービスを作る開発者は、「Gemini Live API」やGoogle AI Studioを通じてこの機能を組み込めます。

料金は1分あたり0.023ドル（約3.5円）で、現在はお試し用の公開プレビュー段階です。

他のサービスと何が違う？比較してみた

音声翻訳は他にもいろいろあります。Gemini 3.5の立ち位置を整理してみましょう。

専用翻訳機「ポケトーク」との違い

日本でおなじみの専用翻訳機といえばポケトークです。専用端末を持ち歩く必要があり、本体の購入費もかかります。

Gemini 3.5は手持ちのスマホアプリで無料で使えます。新しい機械を買わなくていいのが大きな違いです。

文章翻訳「DeepL」との違い

DeepL（ディープエル）は、文章をきれいに訳すことで人気のサービスです。ただし得意なのは主に「書かれた文章」の翻訳です。

Gemini 3.5はその場の会話（音声）をリアルタイムで訳すのが得意分野です。使う場面がそもそも違います。

従来のGoogle翻訳との違い

9か月前のGoogle翻訳は、音声のリアルタイム翻訳がたった4言語で、しかもすべて一度英語を経由していました。

今回は70以上の言語に拡大し、英語をはさまない直接翻訳も可能になりました。短期間で大きく進化したのです。

日本のユーザーにとってどう関係する？

「海外の話でしょ？」と思うかもしれません。でも、日本での影響はとても大きいです。

まず、日本語にしっかり対応しています。日本語と英語の間はもちろん、需要の高い言語ペアとして優先的に整備されています。

具体的な活用シーンを3つ想像してみてください。

1つ目は海外旅行です。現地のレストランで、店員さんと自然に会話しながら注文できます。メニューの細かい質問も気軽にできます。

2つ目は接客の現場です。日本を訪れる外国人観光客は年々増えています。お店のスタッフがスマホ1台あれば、外国語が苦手でも丁寧な接客ができます。

3つ目は仕事の国際会議です。海外の取引先とのオンライン会議で、通訳を頼まなくても議論についていけます。中小企業でも世界とつながりやすくなります。

英語が苦手な人ほど、この技術の恩恵を受けられそうです。

気をつけたい「弱点」もある

とても便利ですが、まだ完璧ではありません。正直な弱点も知っておきましょう。

1つ目は声が途中で変わることがある点です。長い沈黙のあとや、複数人が早口で話すと、声の性別が変わったり、別人の声に聞こえたりする場合があります。

2つ目は言語の聞き分けの苦手さです。なまりの強い話し方や、似た言語、急な言語の切り替えには、まだ弱い部分があります。

大事な商談や医療など、ミスが許されない場面では、人間の通訳と組み合わせる使い方が安心です。

よくある質問（FAQ）

Q1. 料金はかかりますか？

一般ユーザーがGoogle翻訳アプリで使う分には無料です。登録も不要です。開発者がAPIで使う場合だけ、1分0.023ドルの料金がかかります。

Q2. 日本語でも使えますか？

はい、使えます。日本語は需要の高い言語として優先的に対応しています。日本語と英語の音声翻訳に対応しています。

Q3. インターネットがなくても使えますか？

このリアルタイム翻訳は、Googleの高性能なAIがクラウド（インターネット上のサーバー）で処理します。そのため、基本的にはインターネット接続が必要と考えておきましょう。

Q4. どれくらい遅れて訳されますか？

話している相手からおよそ1〜3秒遅れで訳した音声が流れます。従来の10〜20秒と比べると、会話のテンポを保てるレベルまで縮まりました。

Q5. 専用の機械を買う必要はありますか？

いいえ、必要ありません。今持っているスマホにGoogle翻訳アプリを入れるだけで使えます。新しい端末を買う必要はありません。

まとめ

今回のポイントを振り返ります。

Gemini 3.5 Live Translateは70以上の言語をほぼリアルタイムで音声翻訳するAI（2026年6月9日公開）
自分の声の高さやリズムを残したまま外国語に訳せる
訳の遅れは従来の10〜20秒から約1〜3秒に短縮
Google翻訳アプリで登録不要・無料、日本語にも対応
声が変わる・なまりに弱いなどの弱点もあり、重要な場面では人の通訳との併用が安心

まずはスマホのGoogle翻訳アプリを最新版に更新して、身近な外国語のフレーズで試してみてください。

参考文献

こんな時代だから遊んで学びたい

AIを学ぶオンラインサロン「AIフレンズ」では、生成AIを楽しく、どこよりも優しく学べる環境をご用意しております。

毎週開催されるオンラインセッションでは、リアルタイムで学び合える機会を提供しています。さらに、月に一度のオフラインイベントでは、メンバー同士が直接交流し、アイデアや知識を深めることができます。

「AIフレンズ」の仲間とともに、新しい価値を創造し、可能性を広げてみませんか？

一緒に学び、成長しながら、生成AIを使いこなす力を身につけましょう！

今すぐAIフレンズに参加して、未来への第一歩を踏み出そう！！