- Zyphraが2026年6月10日に公開した、画像を理解する新しいAI「Zamba2-VL」がわかります
- 主流のTransformerとは違う「マンバ(Mamba)」という新しい設計で、速くて軽いのが特徴です
- サイズは1.2B・2.7B・7Bの3種類。誰でも無料で使えるApacheライセンスで公開されています
- 小さいのに、自分より大きなAIに勝つ場面もあるベンチマーク結果が出ています
- スマホや工場のカメラなど「手元の機械」で動かしやすく、日本企業にもチャンスがあります
「写真の中身を読み取るAI」は便利ですが、動かすのに高価なサーバーが必要で重い、というのが今までの常識でした。その常識をくつがえす小さなAIが登場しました。米Zyphra(ザイフラ)が公開したZamba2-VL(ザンバ2-VL)です。何がそんなにすごいのか、やさしく解説します。
Zamba2-VLとは?2026年6月に公開された新しいAI
Zamba2-VLは、アメリカのAI企業Zyphraが2026年6月10日に公開した視覚言語モデル(画像と文章の両方を理解できるAI)です。
つまり、写真やグラフを見せて「これは何?」と質問すると、文章で答えてくれるAIです。
大きさは3種類あります。パラメータ(AIの賢さを表す部品の数)の数で、1.2B・2.7B・7Bに分かれています。Bは「10億」の意味です。
注目すべきは、これがApacheライセンス2.0で無料公開された点です。誰でもダウンロードして、商用利用もできます。配布先はAI開発者に人気の「Hugging Face(ハギングフェイス)」というサイトです。
なぜ速い?Transformerと「マンバ」の違い
Zamba2-VLの一番の特徴は、AIの「設計図」が今までと違うことです。
今までの主流は「Transformer」
今のAIの多くはTransformer(トランスフォーマー)という設計でできています。ChatGPTなどもこの仲間です。
Transformerは、文章の中の言葉を「すべての言葉どうしで総当たり比較」して意味を理解します。とても賢いのですが、言葉が増えるほど計算量が爆発的に増えて重くなります。
Zamba2-VLが採用した「Mamba(マンバ)」
一方、Zamba2-VLはSSM(状態空間モデル)という仕組みの「Mamba2(マンバ2)」を取り入れています。2024年に登場した新しい設計です。
Mambaは総当たりをしません。読んだ内容を「コンパクトなメモ」にまとめながら、順番に処理していきます。
このおかげで、計算量が爆発しません。研究では、似た規模のTransformerより最大5倍ほど速く動くケースも報告されています。
Zamba2-VLは、このMambaと一部のTransformerを組み合わせた「いいとこ取り」の設計です。速さと賢さを両立させようとしています。
性能はどれくらい?ベンチマークの数字で見る
「速いのはわかったけど、賢さは大丈夫?」と思いますよね。数字を見てみましょう。
2.7Bモデルの主な成績は次の通りです。
- AI2D(図やイラストの理解): 85.8点
- DocVQA(書類を読み取る力): 90.9点
- ChartQA(グラフを読み取る力): 79.6点
Zyphraによると、2.7Bモデルは自分より大きいサイズのAIにも勝つ場面があるとのことです。
しかも、少ない計算とメモリで動きます。書類やグラフを読む力が高いので、事務作業との相性がよさそうです。
ちなみに、画像を見る「目」の部分には、評判のよいQwen(クウェン)系の技術を使い、効率よく作られています。
他の小型AIと何が違う?競合との比較
2026年は「小さくて軽いAI」の競争が激しくなっています。代表的なライバルと比べてみましょう。
- Zamba2-VL(Zyphra): Mamba採用で高速。1.2B〜7Bと選べる。Apacheライセンスで商用も自由
- Gemma 4(Google): テキスト・画像・音声に対応。スマホ向けの軽量版もあり、知名度が高い
- LFM2.5-VL(Liquid AI): 450Mと超小型。とにかく軽さを重視したエッジ特化型
- InternVL・Qwen-VL系: 画像理解で定評。ただし多くはTransformer中心の設計
多くのライバルがTransformer中心なのに対し、Zamba2-VLはMambaで「速さ」を武器にしている点が個性です。
「同じくらいの賢さなら、より速く・軽く動かしたい」という人に向いた選択肢、と言えます。
スマホや工場で何ができる?身近な活用シーン
軽くて速いと、どんな良いことがあるのでしょうか。具体的な場面を3つ想像してみてください。
1つ目は、スマホでの書類読み取りです。出張先で受け取った請求書をスマホのカメラで写すと、その場で金額や日付を読み取って入力してくれます。ネットにつながっていなくても動くので、電波の弱い場所でも安心です。
2つ目は、工場の検品カメラです。ベルトコンベアを流れる製品を小型AIがチェックし、キズや欠けをその場で見つけます。クラウドに送らないので判定が一瞬で、通信費もかかりません。
3つ目は、お店の在庫管理です。棚をカメラで写すだけで「この商品が残り少ない」と気づいてくれます。手元の機械で完結するので、商品データが外に漏れる心配も減ります。
このように、データを外に送らず手元で処理できるのが、軽量AIの大きな魅力です。プライバシーが守られ、反応も速くなります。
日本のユーザー・企業にどう関係する?
「海外のAIの話でしょ?」と思うかもしれません。でも、日本にこそ関係の深い話です。
日本は製造業や物流が強い国です。工場や倉庫のカメラで動かす軽いAIは、まさに日本の現場と相性がよい技術です。
また、Zamba2-VLはApacheライセンスなので、日本の企業が自社製品に組み込んで売っても問題ありません。ライセンス料を気にせず試せます。
クラウドに頼らず手元で動くため、個人情報や機密データを社外に出したくない日本企業の事情にも合います。医療・金融・製造など、情報管理が厳しい現場で使いやすいでしょう。
もちろん、日本語の読み取り精度は実際に試して確かめる必要があります。まずは無料で動かせるので、国内の開発者が検証しやすいのもうれしい点です。
よくある質問(FAQ)
Q1. Zamba2-VLは無料で使えますか?
はい。Apacheライセンス2.0で公開されており、無料でダウンロードして商用利用もできます。Hugging Faceから入手できます。
Q2. ChatGPTのように、誰でもアプリで使えますか?
いいえ。これは開発者向けに公開された「素材」のAIです。一般の人がすぐ使えるアプリではなく、エンジニアが自分のサービスに組み込んで使うものです。
Q3. Transformerはもう古いのですか?
そうとは限りません。Transformerは今も主流で高性能です。Mambaは「速さ・軽さ」で有利な新しい選択肢、という位置づけです。Zamba2-VLは両方を組み合わせています。
Q4. スマホ単体で本当に動きますか?
小さいサイズ(1.2Bなど)は、少ないメモリで動くよう設計されています。最新スマホやエッジ機器での動作を想定していますが、快適さは機器の性能によります。
Q5. 日本語にも対応していますか?
幅広いデータで学習されていますが、日本語専用に作られたものではありません。日本語の精度は実際に試して確認するのがおすすめです。
まとめ
Zamba2-VLのポイントを振り返ります。
- Zyphraが2026年6月10日に公開した、画像を理解する高速AI
- 主流のTransformerではなく「Mamba(SSM)」を採用し、軽くて速い
- 1.2B・2.7B・7Bの3種類。Apacheライセンスで無料・商用OK
- 小さいのに大きいAIに勝つ場面もあり、書類やグラフ読み取りが得意
- スマホや工場のカメラなど、手元で動かす用途で日本企業にもチャンス
まずはHugging Faceで公開モデルをのぞいて、自分の用途で動かせそうか試してみるのがおすすめです。

