xAIが声をクローン|2分でAI電話係

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • xAIが2026年7月1日、ノーコードでAI電話係を作れる「Voice Agent Builder」を公開
  • 2分の音声があれば、実在する人の声をそっくりコピー(クローン)できる
  • 料金は1分あたり0.05ドル(約8円)と、他社よりかなり安い
  • 日本語にも対応し、コールセンターや予約受付の自動化に使える
  • 便利さの裏で、声を悪用した「なりすまし詐欺」への不安も広がっている

「電話対応をぜんぶ自動化できたら、どんなに楽だろう」と思ったことはありませんか。イーロン・マスク氏のAI企業xAIが、その願いをかなえる新ツールを出しました。しかも、たった2分であなたの声をコピーして電話に出させることもできます。この記事では、話題の「Voice Agent Builder」で何ができるのか、料金や日本への影響、そして見逃せないリスクまで、やさしく解説します。

xAIが「Voice Agent Builder」を公開

2026年7月1日、xAIが新しいツール「Voice Agent Builder(ボイス・エージェント・ビルダー)」を発表しました。

これは、電話で会話するAI(人工知能)を、プログラミングなしで作れるサービスです。

これまで「AIに電話対応をさせる」には、専門のエンジニアが必要でした。コードを書き、いくつものシステムをつなぐ手間がかかっていました。

Voice Agent Builderは、その常識をひっくり返します。やりたいことを言葉で入力するだけで、およそ2分で本番用のAI電話係ができあがります。

土台になっているのは、xAIの音声AI「Grok Voice(グロック・ボイス)」です。人の声を聞いて、すぐに声で返す仕組みになっています。

たった2分で「あなたの声」のAI電話係ができる

Voice Agent Builderの目玉は、大きく分けて2つあります。

80種類以上の声から選べる

まず、あらかじめ用意された80種類以上の声から好きなものを選べます。

明るい声、落ち着いた声など、会社のイメージに合った声を選ぶだけです。すぐにAI電話係がしゃべり始めます。

2分の音声で本人の声をコピーできる

さらに驚くのが音声クローンという機能です。クローンとは「複製(そっくりコピー)」という意味です。

同じ人が話した音声を2分以上用意すれば、その人の声をAIが再現します。社長の声でお客様に案内する、といった使い方もできます。

作ったAIには、電話番号が1つ自動で割り当てられます。NotionやGmail、Googleカレンダーとつなげば、予約の登録やメール送信まで自動でこなします。

返事の速さは「1秒未満」

会話AIで大事なのは、返事までの速さです。間があくと、人は不自然に感じてしまいます。

xAIによると、Voice Agent Builderは声を返し始めるまで1秒未満だそうです。同社は「一番近いライバルより約5倍速い」と説明しています。

1分8円の衝撃価格|他社と比べてどう違う?

今回いちばん注目されているのが、その安さです。

Voice Agent Builderの料金は1分あたり0.05ドル(約8円)。声の利用料も込みで、別途の基本料金はありません。電話番号を使う場合だけ、1分0.01ドル(約1.6円)が追加されます。

この価格が本当に安いのか、同じようなサービスと比べてみましょう。

  • Vapi:土台の料金は1分0.05ドルですが、音声認識やAIの利用料が別。実際は1分0.25〜0.33ドルほどかかります
  • Retell:1分0.07ドル。医療向けの安全基準にも対応
  • ElevenLabs:1分0.08〜0.20ドル。声の品質と多言語対応に強い
  • Bland:1分0.09ドル。営業の大量発信が得意

こうして見ると、xAIの「すべて込みで1分8円」がいかに攻めた値段かがわかります。

xAIは、GoogleやOpenAIの音声AIよりも高品質な声を出せるとも主張しています。安さと品質の両方で勝負をしかけた形です。

日本市場への影響|コールセンターと予約受付の自動化

このニュースは、日本にも大きく関わってきます。

理由の1つは、Voice Agent Builderが日本語に対応していることです。日本の会社でも、そのまま使える可能性があります。

日本はいま、深刻な人手不足に悩んでいます。とくにコールセンターや電話予約の現場では、働く人を集めるのが大変です。

たとえば、ある小さな飲食店を思い浮かべてください。ランチの時間は電話予約が鳴りっぱなしで、店員は接客に集中できません。

ここにAI電話係を置けば、予約はAIが受け、カレンダーに自動で書き込みます。店員は目の前のお客様に集中できます。

美容室の予約、病院の問い合わせ、通販の注文受付など、活用できる場面はたくさんあります。1分8円なら、小さなお店でも手が届きそうです。

声のクローンに潜むリスク|なりすまし詐欺への不安

便利な一方で、大きな心配もあります。それが声を悪用した詐欺です。

日本では「オレオレ詐欺」に代表される特殊詐欺が、長年の社会問題になっています。家族の声を装って、お金をだまし取る手口です。

もし本物そっくりの声を簡単に作れるようになれば、この手口はさらに巧妙になります。

実際、数字がその危険を裏づけています。音声を使ったフィッシング(電話でだます詐欺)は、2025年の第1四半期に前の期の約16倍に急増しました。

アメリカのFBIによると、AIを使った詐欺の被害は2025年だけで8億9300万ドル(約1400億円)以上にのぼりました。

専門家は、わずか3秒の音声でも声をコピーできると警告しています。SNSに上げた動画の声が、悪用されるおそれもあるのです。

こうした流れを受け、アメリカではAIの声を使った自動電話を法律で規制し始めました。ヨーロッパでも「AIと話していると相手に伝える」ルールづくりが進んでいます。

xAIも、なりすましを防ぐ仕組みを求められることになりそうです。便利さと安全のバランスが、これからの大きな課題です。

では、わたしたちはどう身を守ればいいのでしょうか。専門家がすすめるのは、意外にもシンプルな方法です。

それは家族だけの「合言葉」を決めておくことです。電話で「今すぐお金が必要」と言われたら、合言葉を聞き返します。答えられなければ、相手が本物かどうかを疑えます。

声だけを信じない。この心がまえが、AI時代の自分と家族を守る大切な一歩になります。

よくある質問(FAQ)

Q. プログラミングの知識がなくても使えますか?

はい、使えます。Voice Agent Builderは「ノーコード」といって、コードを書かずに操作できる仕組みです。やりたいことを言葉で入力するだけで、AI電話係が作れます。

Q. 料金はいくらですか?

1分あたり0.05ドル(約8円)です。声の利用料も込みです。電話番号を使う場合は、1分0.01ドル(約1.6円)が追加されます。現在はベータ版(試験公開)として提供されています。

Q. 日本語でも使えますか?

はい、日本語に対応しています。日本のコールセンターや予約受付でも活用できる可能性があります。

Q. 他人の声を勝手にコピーしても大丈夫ですか?

いいえ、絶対にやめましょう。本人の許可なく声をコピーして使うのは、詐欺やなりすましにつながる危険な行為です。国によっては法律違反になります。声のクローンは、必ず本人の同意を得たうえで使ってください。

Q. 返事の速さはどのくらいですか?

xAIによると、声を返し始めるまで1秒未満です。人と話しているような、自然なテンポの会話を目指しています。

まとめ

今回のポイントを振り返ります。

  • xAIが2026年7月1日、ノーコードのAI電話係ツール「Voice Agent Builder」を公開
  • 2分の音声で本人の声をコピーでき、80種類以上の声からも選べる
  • 料金は1分約8円と、他社より大幅に安い
  • 日本語対応で、人手不足のコールセンターや予約受付に役立つ
  • 一方で、声を悪用したなりすまし詐欺への不安が高まっている

AIが電話に出る時代は、もうすぐそこまで来ています。まずはこうしたツールの存在を知り、便利さとリスクの両方を意識しておくことが、これからの安全な使い方の第一歩になります。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です