Transformerより速い画像AI|Zamba2-VL登場

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • Zyphraが2026年6月10日に公開した、画像を理解する新しいAI「Zamba2-VL」がわかります
  • 主流のTransformerとは違う「マンバ(Mamba)」という新しい設計で、速くて軽いのが特徴です
  • サイズは1.2B・2.7B・7Bの3種類。誰でも無料で使えるApacheライセンスで公開されています
  • 小さいのに、自分より大きなAIに勝つ場面もあるベンチマーク結果が出ています
  • スマホや工場のカメラなど「手元の機械」で動かしやすく、日本企業にもチャンスがあります

「写真の中身を読み取るAI」は便利ですが、動かすのに高価なサーバーが必要で重い、というのが今までの常識でした。その常識をくつがえす小さなAIが登場しました。米Zyphra(ザイフラ)が公開したZamba2-VL(ザンバ2-VL)です。何がそんなにすごいのか、やさしく解説します。

Zamba2-VLとは?2026年6月に公開された新しいAI

Zamba2-VLは、アメリカのAI企業Zyphraが2026年6月10日に公開した視覚言語モデル(画像と文章の両方を理解できるAI)です。

つまり、写真やグラフを見せて「これは何?」と質問すると、文章で答えてくれるAIです。

大きさは3種類あります。パラメータ(AIの賢さを表す部品の数)の数で、1.2B・2.7B・7Bに分かれています。Bは「10億」の意味です。

注目すべきは、これがApacheライセンス2.0で無料公開された点です。誰でもダウンロードして、商用利用もできます。配布先はAI開発者に人気の「Hugging Face(ハギングフェイス)」というサイトです。

なぜ速い?Transformerと「マンバ」の違い

Zamba2-VLの一番の特徴は、AIの「設計図」が今までと違うことです。

今までの主流は「Transformer」

今のAIの多くはTransformer(トランスフォーマー)という設計でできています。ChatGPTなどもこの仲間です。

Transformerは、文章の中の言葉を「すべての言葉どうしで総当たり比較」して意味を理解します。とても賢いのですが、言葉が増えるほど計算量が爆発的に増えて重くなります。

Zamba2-VLが採用した「Mamba(マンバ)」

一方、Zamba2-VLはSSM(状態空間モデル)という仕組みの「Mamba2(マンバ2)」を取り入れています。2024年に登場した新しい設計です。

Mambaは総当たりをしません。読んだ内容を「コンパクトなメモ」にまとめながら、順番に処理していきます。

このおかげで、計算量が爆発しません。研究では、似た規模のTransformerより最大5倍ほど速く動くケースも報告されています。

Zamba2-VLは、このMambaと一部のTransformerを組み合わせた「いいとこ取り」の設計です。速さと賢さを両立させようとしています。

性能はどれくらい?ベンチマークの数字で見る

「速いのはわかったけど、賢さは大丈夫?」と思いますよね。数字を見てみましょう。

2.7Bモデルの主な成績は次の通りです。

  • AI2D(図やイラストの理解): 85.8点
  • DocVQA(書類を読み取る力): 90.9点
  • ChartQA(グラフを読み取る力): 79.6点

Zyphraによると、2.7Bモデルは自分より大きいサイズのAIにも勝つ場面があるとのことです。

しかも、少ない計算とメモリで動きます。書類やグラフを読む力が高いので、事務作業との相性がよさそうです。

ちなみに、画像を見る「目」の部分には、評判のよいQwen(クウェン)系の技術を使い、効率よく作られています。

他の小型AIと何が違う?競合との比較

2026年は「小さくて軽いAI」の競争が激しくなっています。代表的なライバルと比べてみましょう。

  • Zamba2-VL(Zyphra): Mamba採用で高速。1.2B〜7Bと選べる。Apacheライセンスで商用も自由
  • Gemma 4(Google): テキスト・画像・音声に対応。スマホ向けの軽量版もあり、知名度が高い
  • LFM2.5-VL(Liquid AI): 450Mと超小型。とにかく軽さを重視したエッジ特化型
  • InternVL・Qwen-VL系: 画像理解で定評。ただし多くはTransformer中心の設計

多くのライバルがTransformer中心なのに対し、Zamba2-VLはMambaで「速さ」を武器にしている点が個性です。

「同じくらいの賢さなら、より速く・軽く動かしたい」という人に向いた選択肢、と言えます。

スマホや工場で何ができる?身近な活用シーン

軽くて速いと、どんな良いことがあるのでしょうか。具体的な場面を3つ想像してみてください。

1つ目は、スマホでの書類読み取りです。出張先で受け取った請求書をスマホのカメラで写すと、その場で金額や日付を読み取って入力してくれます。ネットにつながっていなくても動くので、電波の弱い場所でも安心です。

2つ目は、工場の検品カメラです。ベルトコンベアを流れる製品を小型AIがチェックし、キズや欠けをその場で見つけます。クラウドに送らないので判定が一瞬で、通信費もかかりません。

3つ目は、お店の在庫管理です。棚をカメラで写すだけで「この商品が残り少ない」と気づいてくれます。手元の機械で完結するので、商品データが外に漏れる心配も減ります。

このように、データを外に送らず手元で処理できるのが、軽量AIの大きな魅力です。プライバシーが守られ、反応も速くなります。

日本のユーザー・企業にどう関係する?

「海外のAIの話でしょ?」と思うかもしれません。でも、日本にこそ関係の深い話です。

日本は製造業や物流が強い国です。工場や倉庫のカメラで動かす軽いAIは、まさに日本の現場と相性がよい技術です。

また、Zamba2-VLはApacheライセンスなので、日本の企業が自社製品に組み込んで売っても問題ありません。ライセンス料を気にせず試せます。

クラウドに頼らず手元で動くため、個人情報や機密データを社外に出したくない日本企業の事情にも合います。医療・金融・製造など、情報管理が厳しい現場で使いやすいでしょう。

もちろん、日本語の読み取り精度は実際に試して確かめる必要があります。まずは無料で動かせるので、国内の開発者が検証しやすいのもうれしい点です。

よくある質問(FAQ)

Q1. Zamba2-VLは無料で使えますか?
はい。Apacheライセンス2.0で公開されており、無料でダウンロードして商用利用もできます。Hugging Faceから入手できます。

Q2. ChatGPTのように、誰でもアプリで使えますか?
いいえ。これは開発者向けに公開された「素材」のAIです。一般の人がすぐ使えるアプリではなく、エンジニアが自分のサービスに組み込んで使うものです。

Q3. Transformerはもう古いのですか?
そうとは限りません。Transformerは今も主流で高性能です。Mambaは「速さ・軽さ」で有利な新しい選択肢、という位置づけです。Zamba2-VLは両方を組み合わせています。

Q4. スマホ単体で本当に動きますか?
小さいサイズ(1.2Bなど)は、少ないメモリで動くよう設計されています。最新スマホやエッジ機器での動作を想定していますが、快適さは機器の性能によります。

Q5. 日本語にも対応していますか?
幅広いデータで学習されていますが、日本語専用に作られたものではありません。日本語の精度は実際に試して確認するのがおすすめです。

まとめ

Zamba2-VLのポイントを振り返ります。

  • Zyphraが2026年6月10日に公開した、画像を理解する高速AI
  • 主流のTransformerではなく「Mamba(SSM)」を採用し、軽くて速い
  • 1.2B・2.7B・7Bの3種類。Apacheライセンスで無料・商用OK
  • 小さいのに大きいAIに勝つ場面もあり、書類やグラフ読み取りが得意
  • スマホや工場のカメラなど、手元で動かす用途で日本企業にもチャンス

まずはHugging Faceで公開モデルをのぞいて、自分の用途で動かせそうか試してみるのがおすすめです。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です