声を2分で複製|xAI音声AIの実力と危険性

声を複製する音声AIエージェントのイメージ

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • xAIが音声AIエージェントを作る新ツール「Voice Agent Builder」を2026年7月1日に公開しました
  • プログラミング不要で、電話対応のAIをたった2分で作れます
  • 2分ほどの音声があれば、本人そっくりの声を複製(クローン)できます
  • 料金は1分あたり約8円と、ライバルより安く設定されています
  • 便利な一方で、声のなりすまし詐欺に悪用される心配も指摘されています

「電話対応のAI」と聞くと、専門のエンジニアが何日もかけて作るイメージがありませんか?その常識が、たった2分でくつがえるかもしれません。

イーロン・マスク氏が率いるxAIが、声を複製できる音声AIツールを発表しました。この記事では、何ができるのか、料金はいくらか、そして日本の私たちに何が関係するのかを、やさしく解説します。

xAIの「Voice Agent Builder」とは?

Voice Agent Builder(ボイス・エージェント・ビルダー)は、xAIが2026年7月1日に公開した新しいツールです。

ひとことで言うと、電話で話すAIを、プログラミングなしで作れるサービスです。

今はまだベータ版(お試し公開の段階)で提供されています。

ベースになっているのは「Grok Voice Think Fast 1.0」という音声会話AIです。xAIのチャットAI「Grok(グロック)」の音声版だと考えるとわかりやすいです。

使い方はとてもシンプルです。「こんな電話対応をしてほしい」と、ふつうの言葉で説明を書くだけ。あとは必要な資料やツールをつなげれば、AIの電話係が完成します。

何がすごい?主な特徴を整理

このツールがなぜ注目されているのか、特徴を見てみましょう。

まず、用意された声が80種類以上あります。男性・女性・落ち着いた声・明るい声など、用途に合わせて選べます。

さらに、対応する言語は25以上。もちろん日本語での会話にも対応しています。

アカウントを作ると、AI専用の電話番号が1つもらえます。すぐに電話を受けたり、かけたりできるわけです。

NotionやGmail、Googleカレンダーなど、ふだん使うツールともつながります。「予約を確認して」「カレンダーに登録して」といった作業も自動でこなせます。

これまで音声AIを作るには、「音声を文字にするソフト」「考えるAI」「文字を音声にするソフト」の3つを別々に組み合わせる必要がありました。Voice Agent Builderは、これらを1つにまとめてくれます。

料金はいくら?1分8円のインパクト

気になるのは料金です。

Voice Agent Builderの利用料は、AIが話す音声1分あたり0.05ドル(約8円)。これに電話回線の料金として1分あたり0.01ドル(約1.6円)が加わります。

つまり、AIが1分間電話で話しても、かかるのは10円ほどです。

この価格は、ライバルの音声AIサービスよりも安く設定されています。xAIは値段の安さで一気にシェアを取りにきた、と業界では見られています。

ある小さな会社の予約受付を想像してみてください。人を1人雇えば月に何十万円もかかります。AIなら、電話がかかってきた分だけの料金で済むのです。

声を2分で複製できる仕組み

このツールで最も驚かれているのが「声のクローン機能」です。

同じ人の音声を2分以上アップロードすると、その人そっくりの声をAIが再現できます

クローンとは「複製」という意味です。あなたの声を録音してアップすれば、AIがあなたの声色で話し始める、というわけです。

会社の「顔」として、社長の声で案内するAIを作ることもできます。ブランドの統一感を出したい企業には便利な機能です。

ただし、この便利さは裏を返せば大きなリスクにもなります。この点はあとで詳しく説明します。

競合サービスとの違い(ElevenLabs・Vapi・Retell)

音声AIの分野には、すでに強力なライバルがいます。代表的な3社と比べてみましょう。

ElevenLabs(イレブンラボ)は、声の自然さで評判のサービスです。数分の音声から本人そっくりの声を作る技術で知られています。

Vapi(バピ)は、エンジニアが細かく調整できる自由度の高さが強みです。月に6200万件もの電話を処理している実績があります。

Retell(リテル)は、電話対応に特化したサービスです。料金は1分あたり0.07ドルで、応答の速さに定評があります。

これに対しxAIのVoice Agent Builderは、「1分8円という安さ」と「2分で完成する手軽さ」で勝負しています。専門知識がない人でも使える点が、大きな違いです。

なおxAIは、自社の性能テストで「Grok Voice Think Fast 1.0」がグーグルやOpenAIの音声AIを上回るスコア(67.3%)を出したと発表しています。ただしこれは自社によるテストのため、第三者の検証はまだこれからです。

日本市場への影響——コールセンターと人手不足

この技術は、日本にとっても他人事ではありません。

日本のコールセンターや電話受付は、深刻な人手不足に悩んでいます。夜間や休日の対応に困っている企業も多いです。

日本語に対応した安価な音声AIが登場すれば、こうした現場の助けになる可能性があります。

たとえば、小さな飲食店の予約受付。営業中は電話に出られないことも多いですよね。AIが代わりに予約を受ければ、機会損失を減らせます。

病院の予約変更や、通販の問い合わせ対応なども、AIが24時間こなせるようになるかもしれません。

一方で、電話オペレーターの仕事がAIに置きかわる不安もあります。便利さと雇用のバランスは、これからの課題です。

悪用リスク|声のなりすまし詐欺に注意

便利な声のクローン機能には、こわい一面もあります。

それが「声のなりすまし詐欺」です。

すでに、わずか数秒の音声から本人そっくりの声を作り、詐欺に使う手口が報告されています。日本でも問題になっている「オレオレ詐欺」が、より巧妙になる恐れがあります。

家族の声で「事故にあった、お金が必要」と電話をかけてくる。あるいは会社の上司の声で「急ぎで振り込んで」と指示する。こうした手口が現実になりつつあります。

イギリスの銀行は、数百万人がこの種の詐欺に狙われる可能性があると警告しています。

身を守るコツはシンプルです。知っている相手でも、急にお金を求められたら、いったん電話を切りましょう。そして別の連絡手段で本人に直接確認することが大切です。

よくある質問(FAQ)

Q. プログラミングの知識がなくても使えますか?
はい。ふつうの言葉で「こう対応してほしい」と書くだけで作れます。専門知識は不要です。

Q. 日本語でも使えますか?
使えます。25以上の言語に対応しており、日本語での会話もできます。

Q. 料金は本当に安いのですか?
AIが話す音声は1分あたり約8円です。これに電話回線代が少し加わります。ライバルより安い設定です。

Q. 自分の声を勝手に使われる心配はありませんか?
声のクローンには2分以上の音声が必要です。ただし技術の悪用リスクはあるため、公開する音声には注意しましょう。

Q. すぐに誰でも使えますか?
現在はベータ版(お試し公開)の段階です。今後、正式版として広く提供される見込みです。

まとめ

今回のポイントを振り返ります。

  • xAIが音声AIツール「Voice Agent Builder」を2026年7月1日に公開
  • プログラミング不要で、電話対応AIを約2分で作れる
  • 2分の音声で本人そっくりの声を複製できる
  • 料金は音声1分あたり約8円と、ライバルより安い
  • 日本のコールセンターの人手不足を助ける可能性がある
  • 一方で、声のなりすまし詐欺への悪用リスクに注意が必要

音声AIは、私たちの電話とのつきあい方を大きく変えようとしています。まずは「知らない声に安心しすぎない」ことを、今日から意識してみてください。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です