Voxtral Transcribe 2とは?高精度AI音声認識を解説

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube

フランスのAI企業「Mistral AI(ミストラルAI)」が、2026年2月4日に新しい音声認識おんせいにんしきAI「Voxtral Transcribe 2(ボクストラル・トランスクライブ2)」を発表しました。話した言葉をリアルタイムで文字にしてくれるAIで、日本語をふくむ13の言語に対応しています。しかもオープンソース(だれでも自由に使えるかたち)で公開されており、業界に大きなインパクトを与えています。

この記事でわかること

  • Voxtral Transcribe 2がどんなAIなのか
  • 2つのモデルの違いと使い分け
  • 既存の音声認識AIとの性能比較
  • 日本語での活用シーンと企業での使い道
  • 開発元Mistral AIの注目ポイント

Voxtral Transcribe 2ってなに?

Voxtral Transcribe 2は、音声をテキスト(文字)に変換するAIです。たとえば、会議の録音をAIに聞かせると、だれが何を話したかを自動で文字に起こしてくれます。

このAIのすごいところは、200ミリ秒(0.2秒)以下という超低遅延ちえんで処理できる点です。つまり、話している最中にほぼリアルタイムで文字が表示されます。テレビの生放送の字幕のようなイメージですね。

さらに、Apache 2.0ライセンスというオープンソースで公開されています。これは、企業でも個人でも自由に使ったり改良したりできるということです。Hugging Face(AIモデルの共有サイト)からダウンロードして、自分のパソコンやサーバーで動かすことも可能です。

2つのモデルの違い

Voxtral Transcribe 2には、用途が異なる2つのモデルが用意されています。

Voxtral Mini Transcribe V2(バッチ処理向け)

録音された音声ファイルをまとめて文字起こしするモデルです。主な特徴は以下のとおりです。

  • 最大3時間の音声を1回のリクエストで処理できる
  • 話者分離(だれが話したかを自動で区別する機能)に対応
  • 単語ごとのタイムスタンプ(開始・終了時刻)を出力
  • API利用料金は1分あたり約0.45円($0.003)

たとえば、1時間の会議の録音を文字起こしすると、たったの約27円で済みます。

Voxtral Realtime(リアルタイム向け)

ライブ配信や電話対応など、リアルタイムで音声を文字にしたい場面で使うモデルです。

  • 遅延を200ミリ秒以下に設定可能
  • 4Bパラメータ(40億個のパラメータ学習した数値)で、スマホやエッジ端末でも動作
  • API利用料金は1分あたり約0.9円($0.006)
  • オープンソース(Apache 2.0)で公開済み

ちなみに、2.4秒の遅延設定にすればバッチモデルと同等の精度が出せます。480ミリ秒でも精度の低下はわずか1〜2%程度です。スピードと精度のバランスを自分で調整できるのが魅力です。

どれくらいスゴいの?性能を比較

Voxtral Transcribe 2は、主要な競合モデルをほぼすべて上回る性能を見せています。

音声認識の精度は「WER(Word Error Rate=単語の誤り率)」で測ります。この数字が小さいほど正確です。

  • Voxtral Mini Transcribe V2:約4%(FLEURSベンチマーク、上位10言語平均)
  • GPT-4o mini Transcribe(OpenAI)より高精度
  • Gemini 2.5 Flash(Google)より高精度
  • ElevenLabs Scribeの約3倍の速度で同等の品質、コストは5分の1

つまり、大手テック企業のAIよりも正確で、しかも圧倒的に安いということです。OpenAIのWhisper(ウィスパー)と比べても、精度・コストの両面で優れているとされています。

さらに、工場の騒音がある環境やコールセンターのような雑音が多い場所でも、高い精度を維持できるのが特徴です。

日本語にも対応!13言語をカバー

Voxtral Transcribe 2は以下の13言語に対応しています。

  • 英語、中国語、ヒンディー語、スペイン語、アラビア語
  • フランス語、ポルトガル語、ロシア語、ドイツ語
  • 日本語、韓国語、イタリア語、オランダ語

日本語がネイティブ対応しているのは、日本のユーザーにとって大きなポイントです。これまでの音声認識AIは英語に最適化されていて、日本語だと精度が落ちるものが多くありました。

また、「コンテキストバイアシング文脈にあわせた補正」という機能もあります。これは、専門用語や固有名詞を最大100語まで事前に登録しておくことで、認識精度を上げられるしくみです。たとえば「Mistral AI」のような会社名を登録すると、似た発音の別の言葉に間違えにくくなります。

どんな場面で使える?

Voxtral Transcribe 2は、さまざまなビジネスシーンで活用できます。

会議の議事録ぎじろく作成

話者分離機能があるので、「Aさんがこう言った、Bさんがこう返した」という形式の議事録を自動で作れます。1時間の会議でもわずか約27円です。

動画・配信の字幕生成

単語ごとのタイムスタンプがつくため、YouTubeの字幕やライブ配信のリアルタイム字幕に最適です。

コールセンターの通話分析

電話の内容を自動で文字起こしし、クレーム対応の質を分析するなどの使い方ができます。雑音に強いのもコールセンター向きです。

医療・金融など機密性の高い分野

オープンソースなので、自社サーバーで動かせます。音声データを外部に送信しなくて済むため、患者の診察しんさつ記録や金融取引の記録など、個人情報を扱う場面でも安心して使えます。

Mistral AIってどんな会社?

Voxtral Transcribe 2を開発したMistral AI(ミストラルAI)は、フランス・パリに本社を置くAIスタートアップです。

  • 2023年4月に、元DeepMindと元MetaのAI研究者たちが創業
  • 企業評価額は約140億ドル(約2兆円)で、ヨーロッパで最も価値のあるAI企業
  • シリーズCで約20億ドル(約3,000億円)を調達 — ヨーロッパのAI企業として史上最大の資金調達
  • 2026年には1万8,000台のNVIDIA Grace Blackwellチップを使った独自のAIインフラをヨーロッパに構築予定

アメリカのOpenAIやGoogleに対抗する「ヨーロッパ発のAI」として世界中から注目されています。オープンソースを重視する姿勢が、開発者コミュニティからも支持されています。

まとめ

Voxtral Transcribe 2の要点をおさらいしましょう。

  • Mistral AIが発表した次世代の音声認識AI
  • バッチ処理用とリアルタイム用の2つのモデルを提供
  • GPT-4o miniやGemini 2.5 Flashを上回る業界最高クラスの精度
  • 1分あたり約0.45円〜と圧倒的に低コスト
  • 日本語をふくむ13言語に対応
  • Apache 2.0のオープンソースで、自社サーバーでの運用も可能
  • 話者分離や単語タイムスタンプなど、実用的な機能が充実

議事録作成や字幕生成、コールセンター分析など、音声を扱うあらゆる場面で活用できる強力なツールです。オープンソースで無料で使い始められるので、気になる方はぜひHugging Faceからモデルをダウンロードして試してみてください。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です