Gemini新音声翻訳|自分の声のまま70言語

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • Googleが「Gemini 3.5 Live Translate」を2026年6月9日に公開。70以上の言語をほぼリアルタイムで音声翻訳します
  • 話している途中から数秒遅れで訳が流れ、声の高さや話すリズムまで本人そっくりに再現します
  • Google翻訳アプリ(Android/iOS)で登録不要・無料で使え、日本語にも対応しています
  • 従来の「話し終わってから訳す」方式の10〜20秒待ちを、約3秒まで縮めました
  • Google MeetやAPIにも展開。海外旅行・国際会議・接客の現場が大きく変わりそうです

海外旅行で道をたずねたいのに、言葉が出てこなくて困った経験はありませんか。Googleが2026年6月9日に公開した「Gemini 3.5 Live Translate」は、そんな悩みをまるごと解決してくれる新しいAI翻訳です。スマホ1台で、相手の話を聞きながらほぼ同時に訳してくれます。しかも自分の声のまま外国語に変わります。この記事では、何がすごいのか、日本でどう使えるのかをやさしく解説します。

Gemini 3.5 Live Translateとは?

Gemini 3.5 Live Translate(ジェミニ・ライブ・トランスレート)は、Googleが作った音声をリアルタイムで翻訳するAIです。

「リアルタイム」とは、相手が話している最中から、ほんの数秒遅れで訳した音声が流れてくるという意味です。

2026年6月9日に公開されました。対応する言語は70以上です。

言語の組み合わせは2,000通り以上にのぼります。日本語と英語はもちろん、日本語とスペイン語など、英語をはさまない直接の翻訳もできます。

いちばんの特徴は「自分の声のまま」訳されること

これまでの翻訳アプリは、訳した文章を機械っぽい合成音声で読み上げていました。

Gemini 3.5は違います。話す人の声の高さ・話すスピード・抑揚(声の上げ下げ)をそのまま残して訳します。

つまり、英語が話せなくても、まるで自分が流ちょうな英語を話しているように聞こえるのです。

どうやって動くの?仕組みをやさしく解説

すごさを理解するには、これまでの翻訳との「待ち時間」の違いを知るのが近道です。

従来は「3段階のリレー」で時間がかかっていた

古い音声翻訳は、次の3つの作業を順番に行っていました。

  • ①話した言葉を文字にする(書き起こし)
  • ②その文字を別の言語に訳す
  • ③訳した文字を音声に変える(読み上げ)

この方式だと、相手が話し終わるまで①を始められません。結果として、訳が出るまで10〜20秒もかかっていました。

会話のテンポが崩れて、気まずい沈黙が生まれるのが悩みでした。

Gemini 3.5は「同時並行」で動く

Gemini 3.5は、この3つの作業を同時に並行して進めます。

話している最中から少しずつ訳していくので、相手が話し終わるのを待ちません。

その結果、訳が出るまでの遅れはわずか1〜3秒になりました。独立した計測では、最初の音声が出るまで約2,947ミリ秒(およそ3秒)という結果も報告されています。

さらに、カフェの雑音や複数人が同時に話す場面でも、聞き取って訳せるよう作られています。

どこで使える?3つの場所で同時公開

Googleは今回、3つのサービスで同時にこの機能を展開しました。それぞれ使える人が違います。

①Google翻訳アプリ(一般ユーザー向け)

いちばん身近なのがこれです。スマホのGoogle翻訳アプリに入りました。

AndroidとiOSの両方で、2026年6月9日から世界中に順次公開されています。登録も不要で無料です。

旅行先や買い物中に、その場でサッと使えるのが魅力です。

②Google Meet(仕事・会議向け)

オンライン会議ツールのGoogle Meetにも入りました。

こちらは仕事向けのGoogle Workspace(ワークスペース)を契約している一部企業に、まず「プレビュー版」として提供されます。

1つの会議の中で2,000通り以上の言語の組み合わせに対応します。多国籍メンバーの会議がぐっとスムーズになります。

③開発者向けAPI

アプリやサービスを作る開発者は、「Gemini Live API」やGoogle AI Studioを通じてこの機能を組み込めます。

料金は1分あたり0.023ドル(約3.5円)で、現在はお試し用の公開プレビュー段階です。

他のサービスと何が違う?比較してみた

音声翻訳は他にもいろいろあります。Gemini 3.5の立ち位置を整理してみましょう。

専用翻訳機「ポケトーク」との違い

日本でおなじみの専用翻訳機といえばポケトークです。専用端末を持ち歩く必要があり、本体の購入費もかかります。

Gemini 3.5は手持ちのスマホアプリで無料で使えます。新しい機械を買わなくていいのが大きな違いです。

文章翻訳「DeepL」との違い

DeepL(ディープエル)は、文章をきれいに訳すことで人気のサービスです。ただし得意なのは主に「書かれた文章」の翻訳です。

Gemini 3.5はその場の会話(音声)をリアルタイムで訳すのが得意分野です。使う場面がそもそも違います。

従来のGoogle翻訳との違い

9か月前のGoogle翻訳は、音声のリアルタイム翻訳がたった4言語で、しかもすべて一度英語を経由していました。

今回は70以上の言語に拡大し、英語をはさまない直接翻訳も可能になりました。短期間で大きく進化したのです。

日本のユーザーにとってどう関係する?

「海外の話でしょ?」と思うかもしれません。でも、日本での影響はとても大きいです。

まず、日本語にしっかり対応しています。日本語と英語の間はもちろん、需要の高い言語ペアとして優先的に整備されています。

具体的な活用シーンを3つ想像してみてください。

1つ目は海外旅行です。現地のレストランで、店員さんと自然に会話しながら注文できます。メニューの細かい質問も気軽にできます。

2つ目は接客の現場です。日本を訪れる外国人観光客は年々増えています。お店のスタッフがスマホ1台あれば、外国語が苦手でも丁寧な接客ができます。

3つ目は仕事の国際会議です。海外の取引先とのオンライン会議で、通訳を頼まなくても議論についていけます。中小企業でも世界とつながりやすくなります。

英語が苦手な人ほど、この技術の恩恵を受けられそうです。

気をつけたい「弱点」もある

とても便利ですが、まだ完璧ではありません。正直な弱点も知っておきましょう。

1つ目は声が途中で変わることがある点です。長い沈黙のあとや、複数人が早口で話すと、声の性別が変わったり、別人の声に聞こえたりする場合があります。

2つ目は言語の聞き分けの苦手さです。なまりの強い話し方や、似た言語、急な言語の切り替えには、まだ弱い部分があります。

大事な商談や医療など、ミスが許されない場面では、人間の通訳と組み合わせる使い方が安心です。

よくある質問(FAQ)

Q1. 料金はかかりますか?

一般ユーザーがGoogle翻訳アプリで使う分には無料です。登録も不要です。開発者がAPIで使う場合だけ、1分0.023ドルの料金がかかります。

Q2. 日本語でも使えますか?

はい、使えます。日本語は需要の高い言語として優先的に対応しています。日本語と英語の音声翻訳に対応しています。

Q3. インターネットがなくても使えますか?

このリアルタイム翻訳は、Googleの高性能なAIがクラウド(インターネット上のサーバー)で処理します。そのため、基本的にはインターネット接続が必要と考えておきましょう。

Q4. どれくらい遅れて訳されますか?

話している相手からおよそ1〜3秒遅れで訳した音声が流れます。従来の10〜20秒と比べると、会話のテンポを保てるレベルまで縮まりました。

Q5. 専用の機械を買う必要はありますか?

いいえ、必要ありません。今持っているスマホにGoogle翻訳アプリを入れるだけで使えます。新しい端末を買う必要はありません。

まとめ

今回のポイントを振り返ります。

  • Gemini 3.5 Live Translateは70以上の言語をほぼリアルタイムで音声翻訳するAI(2026年6月9日公開)
  • 自分の声の高さやリズムを残したまま外国語に訳せる
  • 訳の遅れは従来の10〜20秒から約1〜3秒に短縮
  • Google翻訳アプリで登録不要・無料、日本語にも対応
  • 声が変わる・なまりに弱いなどの弱点もあり、重要な場面では人の通訳との併用が安心

まずはスマホのGoogle翻訳アプリを最新版に更新して、身近な外国語のフレーズで試してみてください。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です