- xAIが2026年7月1日、ノーコードでAI電話係を作れる「Voice Agent Builder」を公開
- 2分の音声があれば、実在する人の声をそっくりコピー(クローン)できる
- 料金は1分あたり0.05ドル(約8円)と、他社よりかなり安い
- 日本語にも対応し、コールセンターや予約受付の自動化に使える
- 便利さの裏で、声を悪用した「なりすまし詐欺」への不安も広がっている
「電話対応をぜんぶ自動化できたら、どんなに楽だろう」と思ったことはありませんか。イーロン・マスク氏のAI企業xAIが、その願いをかなえる新ツールを出しました。しかも、たった2分であなたの声をコピーして電話に出させることもできます。この記事では、話題の「Voice Agent Builder」で何ができるのか、料金や日本への影響、そして見逃せないリスクまで、やさしく解説します。
xAIが「Voice Agent Builder」を公開
2026年7月1日、xAIが新しいツール「Voice Agent Builder(ボイス・エージェント・ビルダー)」を発表しました。
これは、電話で会話するAI(人工知能)を、プログラミングなしで作れるサービスです。
これまで「AIに電話対応をさせる」には、専門のエンジニアが必要でした。コードを書き、いくつものシステムをつなぐ手間がかかっていました。
Voice Agent Builderは、その常識をひっくり返します。やりたいことを言葉で入力するだけで、およそ2分で本番用のAI電話係ができあがります。
土台になっているのは、xAIの音声AI「Grok Voice(グロック・ボイス)」です。人の声を聞いて、すぐに声で返す仕組みになっています。
たった2分で「あなたの声」のAI電話係ができる
Voice Agent Builderの目玉は、大きく分けて2つあります。
80種類以上の声から選べる
まず、あらかじめ用意された80種類以上の声から好きなものを選べます。
明るい声、落ち着いた声など、会社のイメージに合った声を選ぶだけです。すぐにAI電話係がしゃべり始めます。
2分の音声で本人の声をコピーできる
さらに驚くのが音声クローンという機能です。クローンとは「複製(そっくりコピー)」という意味です。
同じ人が話した音声を2分以上用意すれば、その人の声をAIが再現します。社長の声でお客様に案内する、といった使い方もできます。
作ったAIには、電話番号が1つ自動で割り当てられます。NotionやGmail、Googleカレンダーとつなげば、予約の登録やメール送信まで自動でこなします。
返事の速さは「1秒未満」
会話AIで大事なのは、返事までの速さです。間があくと、人は不自然に感じてしまいます。
xAIによると、Voice Agent Builderは声を返し始めるまで1秒未満だそうです。同社は「一番近いライバルより約5倍速い」と説明しています。
1分8円の衝撃価格|他社と比べてどう違う?
今回いちばん注目されているのが、その安さです。
Voice Agent Builderの料金は1分あたり0.05ドル(約8円)。声の利用料も込みで、別途の基本料金はありません。電話番号を使う場合だけ、1分0.01ドル(約1.6円)が追加されます。
この価格が本当に安いのか、同じようなサービスと比べてみましょう。
- Vapi:土台の料金は1分0.05ドルですが、音声認識やAIの利用料が別。実際は1分0.25〜0.33ドルほどかかります
- Retell:1分0.07ドル。医療向けの安全基準にも対応
- ElevenLabs:1分0.08〜0.20ドル。声の品質と多言語対応に強い
- Bland:1分0.09ドル。営業の大量発信が得意
こうして見ると、xAIの「すべて込みで1分8円」がいかに攻めた値段かがわかります。
xAIは、GoogleやOpenAIの音声AIよりも高品質な声を出せるとも主張しています。安さと品質の両方で勝負をしかけた形です。
日本市場への影響|コールセンターと予約受付の自動化
このニュースは、日本にも大きく関わってきます。
理由の1つは、Voice Agent Builderが日本語に対応していることです。日本の会社でも、そのまま使える可能性があります。
日本はいま、深刻な人手不足に悩んでいます。とくにコールセンターや電話予約の現場では、働く人を集めるのが大変です。
たとえば、ある小さな飲食店を思い浮かべてください。ランチの時間は電話予約が鳴りっぱなしで、店員は接客に集中できません。
ここにAI電話係を置けば、予約はAIが受け、カレンダーに自動で書き込みます。店員は目の前のお客様に集中できます。
美容室の予約、病院の問い合わせ、通販の注文受付など、活用できる場面はたくさんあります。1分8円なら、小さなお店でも手が届きそうです。
声のクローンに潜むリスク|なりすまし詐欺への不安
便利な一方で、大きな心配もあります。それが声を悪用した詐欺です。
日本では「オレオレ詐欺」に代表される特殊詐欺が、長年の社会問題になっています。家族の声を装って、お金をだまし取る手口です。
もし本物そっくりの声を簡単に作れるようになれば、この手口はさらに巧妙になります。
実際、数字がその危険を裏づけています。音声を使ったフィッシング(電話でだます詐欺)は、2025年の第1四半期に前の期の約16倍に急増しました。
アメリカのFBIによると、AIを使った詐欺の被害は2025年だけで8億9300万ドル(約1400億円)以上にのぼりました。
専門家は、わずか3秒の音声でも声をコピーできると警告しています。SNSに上げた動画の声が、悪用されるおそれもあるのです。
こうした流れを受け、アメリカではAIの声を使った自動電話を法律で規制し始めました。ヨーロッパでも「AIと話していると相手に伝える」ルールづくりが進んでいます。
xAIも、なりすましを防ぐ仕組みを求められることになりそうです。便利さと安全のバランスが、これからの大きな課題です。
では、わたしたちはどう身を守ればいいのでしょうか。専門家がすすめるのは、意外にもシンプルな方法です。
それは家族だけの「合言葉」を決めておくことです。電話で「今すぐお金が必要」と言われたら、合言葉を聞き返します。答えられなければ、相手が本物かどうかを疑えます。
声だけを信じない。この心がまえが、AI時代の自分と家族を守る大切な一歩になります。
よくある質問(FAQ)
Q. プログラミングの知識がなくても使えますか?
はい、使えます。Voice Agent Builderは「ノーコード」といって、コードを書かずに操作できる仕組みです。やりたいことを言葉で入力するだけで、AI電話係が作れます。
Q. 料金はいくらですか?
1分あたり0.05ドル(約8円)です。声の利用料も込みです。電話番号を使う場合は、1分0.01ドル(約1.6円)が追加されます。現在はベータ版(試験公開)として提供されています。
Q. 日本語でも使えますか?
はい、日本語に対応しています。日本のコールセンターや予約受付でも活用できる可能性があります。
Q. 他人の声を勝手にコピーしても大丈夫ですか?
いいえ、絶対にやめましょう。本人の許可なく声をコピーして使うのは、詐欺やなりすましにつながる危険な行為です。国によっては法律違反になります。声のクローンは、必ず本人の同意を得たうえで使ってください。
Q. 返事の速さはどのくらいですか?
xAIによると、声を返し始めるまで1秒未満です。人と話しているような、自然なテンポの会話を目指しています。
まとめ
今回のポイントを振り返ります。
- xAIが2026年7月1日、ノーコードのAI電話係ツール「Voice Agent Builder」を公開
- 2分の音声で本人の声をコピーでき、80種類以上の声からも選べる
- 料金は1分約8円と、他社より大幅に安い
- 日本語対応で、人手不足のコールセンターや予約受付に役立つ
- 一方で、声を悪用したなりすまし詐欺への不安が高まっている
AIが電話に出る時代は、もうすぐそこまで来ています。まずはこうしたツールの存在を知り、便利さとリスクの両方を意識しておくことが、これからの安全な使い方の第一歩になります。
参考文献
- GIGAZINE「xAI、人間の声をクローンするAIコールセンターをノーコードで作れる『Voice Agent Builder』を公開」
- xAI「Introducing the Voice Agent Builder」(公式発表)
- Crypto Briefing「xAI launches Voice Agent Builder in beta with aggressive per-minute pricing」
- Softcery「12 Voice Agent Platforms Compared in 2026」
- SQ Magazine「AI Voice Cloning Fraud Statistics 2026」

