- 2026年5月、米NIST傘下CAISIがDeepSeek V4 Proを公式評価
- 結論:米国主要AIから約8カ月遅れ、ただし現状最も高性能な中国製AI
- 9ベンチマーク・35モデル比較。サイバー・SE・数学・自然科学・抽象推論の5領域
- DeepSeek自己申告は「GPT-5.4・Opus 4.6並み(2カ月遅れ)」。米中で6カ月の認識差
- コスト効率は7ベンチマーク中5つで米国モデルより安価。価格破壊は継続
米国政府が中国AIを「具体的に何カ月遅れか」と公式に数字で示したのは、これが初めてです。2026年5月、商務省NIST傘下の評価機関が出したレポートが、AI業界の議論を一気に加速させました。日本企業の選定軸にも直結する内容です。
何が起きたのか|米CAISIの公式評価
CAISIとは何か
CAISI(Center for AI Standards and Innovation)は、米商務省傘下のNIST(国立標準技術研究所)内に置かれた評価機関です。
「商用AIシステムの可用性と安全性を評価する」役割を持ちます。トランプ前政権下で「AI Safety Institute」だった組織が、2025年に再編・改名されてできた組織です。
つまり、米国政府が公式にAIの実力を計る役所です。発表内容は、そのまま米国の政策判断に使われます。
評価対象は「DeepSeek V4 Pro」
評価対象になったのは、中国DeepSeek社が2026年4月24日に公開した最新モデル「DeepSeek V4 Pro」です。
主な特徴は次の通り。
- 総パラメータ1.6兆(アクティブ49B)のMoE構造
- ライセンスはMIT(完全オープンウェイト)、Hugging Faceで重み公開
- 公式API料金は100万トークンあたり入力$1.74・出力$3.48(2026年5月末まで75%割引中)
- これまで最高の中国製AI「Kimi K2.5」より約200ポイント高いスコア
低価格・高性能・オープンライセンスの三拍子で、世界中の開発者が一気に注目したモデルです。
「8カ月遅れ」という結論
CAISIの評価結果は、シンプルかつインパクトのある一文に集約されました。
「DeepSeek V4 Proは米国主要AIに約8カ月遅れ。ただし現状最も高性能な中国製AIモデル」
8カ月の根拠は、DeepSeek V4 Proのスコアが2025年8月公開のGPT-5と同水準だったこと。CAISIは内部の非公開ベンチマークも含めて多角的に判定しています。
「最も高性能な中国製」と認めつつ、最先端からは大きく離れている——という、絶妙な綱引きの結論です。
数字で見る評価|9ベンチマーク・35モデル
5領域・9ベンチマークでの結果
CAISIが評価に使ったベンチマーク領域は次の5つです。
- サイバーセキュリティ(攻撃検出・脆弱性発見など)
- ソフトウェアエンジニアリング(コード生成・SWE-bench Verifiedなど)
- 自然科学(物理・化学・生物の推論)
- 抽象推論(パターン認識・ARC-AGI系)
- 数学(証明・難問解決)
合計16ベンチマーク・35モデルを横断的に比較した大規模な評価です。DeepSeek V4 Proに対しては、9つの公開・非公開ベンチマークを当てました。
DeepSeek自己申告との大きなギャップ
注目すべきは、DeepSeek側の主張とCAISI評価の間に大きな差があった点です。
DeepSeekは公式に「V4 ProはGPT-5.4・Claude Opus 4.6並みの性能」と主張しています。これは2026年3月リリースの最新モデルです。つまりDeepSeek基準では「2カ月遅れ」。
一方、CAISI評価では「8カ月遅れ」。米中の評価で6カ月もの認識差があるわけです。
CAISIは「DeepSeekは自社で選んだベンチマークでは高得点を出すが、CAISI評価では低くなる」と指摘。ベンチマークの選び方で結果が大きく変わる、という根本的な問題が露わになりました。
コスト効率は「7中5」でDeepSeek優位
もう一つ重要なのが、コスト効率の比較です。
米国モデルで最も安価な「GPT-5.4 mini」と比較した結果、7ベンチマーク中5つでDeepSeek V4 Proが安かったと評価されています。コスト効率の差はマイナス53%からプラス41%の範囲。
つまり、性能では8カ月遅れていても、価格対性能比では米国モデルを上回るケースが多い、ということ。「安いほうが勝つ」用途では既に競合できる水準まで来ています。
DeepSeek V4 Proのスペックを整理する
1.6兆パラ・MITライセンスの衝撃
V4 Proの最大の特徴は、総パラメータ1.6兆という巨大規模をMITライセンスで公開していること。
MITライセンスは、商用利用・改変・再配布が自由なオープンソースライセンス。企業が自社サーバーで動かしても、追加料金を払う必要がないのが特徴です。
米国のGPT-5やClaudeはクローズドソース。API経由で使うしかなく、データはベンダー側に送信される設計です。この違いが大きな選定軸になっています。
価格は米国大手の20分の1水準
API料金(2026年5月時点・75%割引適用後)も衝撃的です。
- 入力:100万トークンあたり$0.44(未キャッシュ)
- 出力:100万トークンあたり$0.88
- キャッシュ済み入力:$0.0036(ほぼ無料)
同じ100万トークンでGPT-5.5は入力$5・出力$15程度。単純比較で15〜20分の1の価格帯です。
もちろん割引終了後(6月以降)は$1.74/$3.48に戻る予定。それでも米国大手の数分の一の水準は維持される見通しです。
日本企業はどう使えるか
日本企業がV4 Proを使う方法は、主に3つあります。
- 公式API経由:最安だが、データは中国経由(杭州本社)
- クラウド経由(AWS Bedrock等):データは米国内などで完結
- 自社サーバーにデプロイ:MITライセンスで自由。ただし1.6兆パラを動かすGPU環境が必要
中国に直接データを送ることに不安がある企業は、AWSやさくらクラウド経由で動かす選択肢が現実的です。
中国・米国モデルとの比較
中国勢ランキング
中国製AIモデルの主要プレイヤーを並べると、現時点で次のような序列です。
- DeepSeek V4 Pro(DeepSeek):CAISI評価で中国最強
- Kimi K2.6(Moonshot AI):オープンウェイト勢で2位、Tier A 87点
- GLM-5.1(智譜AI):ハイブリッド推論モードでビジネス向け
- Qwen3.6(27B)(Alibaba):軽量モデルの代表格
DeepSeek V4 ProがKimi K2.5に対して約200ポイント差をつけたのが、現時点のリードの根拠になっています。
米国モデルとの差
個別ベンチマークで見ると、特定タスクではV4 Proが上回るケースもあります。
- LiveCodeBench(コーディング):V4 Pro 93.5 vs Kimi K2.6 89.6
- SWE-bench Verified(実コードバグ修正):V4 Pro 80.6 vs Kimi K2.6 80.2
- ただしArtificial Analysis Intelligence Indexでは、GPT-5.5(60点)が断トツトップ
「8カ月遅れ」は総合スコアでの話であって、コーディングだけ見ればほぼ拮抗する場面もある、というのが現実です。
オープン vs クローズドという別軸
米中比較で見落とされがちなのが、ライセンスの違いです。
米国大手(OpenAI・Anthropic)の最新モデルはすべてクローズド。一方、中国勢はDeepSeek・Kimi・Qwenの上位モデルがすべてオープンウェイトです。
クローズドモデルは安定性・サポート面で優位。オープンモデルは自社で改造でき、データを外に出さずに済むのが強み。この使い分けは、性能差とは別の評価軸として企業導入時に重要になります。
日本市場への影響|選定の現実
コスト破壊の現実的インパクト
V4 Proの登場は、日本企業のAI利用コストを大幅に下げる可能性があります。
GPT-5.5を1日100万トークン使うと、月額約15万円。これをV4 Pro(75%割引中)に置き換えると、月額1万円以下になります。年間で約170万円の削減です。
「コストで導入を躊躇していた」中小企業にとっては、AI実装のハードルが一気に下がります。
中国製AIへの規制リスク
一方で、注意点もあります。
米国は中国製AIへの規制を段階的に強めています。政府機関での中国AI利用は事実上禁止。EU や日本の重要インフラ事業者も追随する流れです。
金融・医療・防衛など、機密性の高い業務での使用は慎重に。一方、社内文書要約や開発補助のような機密度の低い業務では問題ないケースも多いでしょう。
中小企業の選び方
2026年5月時点での、日本の中小企業向けの実用的な選び方は次の通りです。
- 機密性が低く、コスト最重視:DeepSeek V4 Pro(公式API or AWS)
- 機密性が中程度、バランス重視:Claude Opus 4.6 or GPT-5.4
- 最高性能が必要:GPT-5.5 or Claude Opus 4.7
- データ管理を完全自社内で:オープンウェイトモデル+自社GPUサーバー
「とりあえず一番安いもの」ではなく、用途と機密度で組み合わせるのが現実解になります。
議論ポイント|「8カ月遅れ」の解釈
ベンチマークの透明性問題
米中で6カ月の認識差が出た理由は、評価ベンチマークの選び方にあります。
CAISIは非公開ベンチマークを多く使うため、「フェアな評価」と主張する一方、検証が難しいという批判もあります。DeepSeek側は公開ベンチマークで高得点を出していますが、ベンダー有利な選定の疑いも残ります。
業界として第三者による独立評価の必要性が、改めてクローズアップされた形です。
「最先端」の定義が変わりつつある
もう一つの論点が、「最先端AI」の定義です。
従来は「ベンチマーク総合点」で序列が決まっていました。しかし、コスト・オープンウェイト・特定タスク特化など、評価軸が多様化しています。
「8カ月遅れ」は性能の話。「価格対性能」「使いやすさ」では既に逆転している領域もある、という見方が現実的です。
DeepSeek側の今後の動き
DeepSeek社はCAISI評価について、正式な反論コメントは出していません。ただし、Hugging Faceでの公開を続けており、6月以降の追加学習で性能を上げる計画も示唆されています。
R2モデル(DeepSeek-R2、思考型)の追加リリースも噂されており、評価は今後も動きます。
よくある質問(FAQ)
Q. DeepSeek V4 Proは安全に使えますか?
A. 用途次第です。機密度の低い業務なら問題ありませんが、機密データの扱いは要注意です。
公式API経由で使うと、データは中国・杭州のサーバーに送られます。中国のデータ保護法の管轄下に入る可能性があるため、個人情報や機密事業情報の入力は避けるべきです。AWS Bedrock経由や自社サーバーへのデプロイなら、データを中国に送らずに済みます。
Q. なぜCAISIとDeepSeekで評価が違うのですか?
A. 使うベンチマークの違いです。
CAISIは非公開ベンチマークを含む独自評価を実施。DeepSeek側は自社で選んだ公開ベンチマークで主張しています。同じモデルでも、評価する問題セットが変われば結果は大きく変わります。これはAI業界全体の透明性問題でもあります。
Q. 1.6兆パラのモデルを自社サーバーで動かせますか?
A. かなり大規模なGPU環境が必要です。
1.6兆パラ全体を動かすには、H100クラスのGPUを少なくとも数十枚並べる構成が必要。MoE構造なので実効的に動くのは49Bですが、それでも個人や小規模企業ではハードルが高い水準です。クラウド(AWS Bedrock等)の利用が現実的でしょう。
Q. GPT-5.5やClaudeから乗り換えるべき?
A. 全面乗り換えは推奨しません。用途で使い分けるのが賢明です。
性能が最重要な業務(戦略文書・複雑な分析)は引き続き米国大手が優位。一方、大量処理・コスト重視のタスク(要約・分類・自動応答)はDeepSeekで十分なケースも多いです。両方契約してタスクごとに振り分けると、最もコスト効率がよくなります。
Q. 日本政府の規制方針はどうなりそう?
A. 重要インフラ向けには規制強化、民間利用は自主判断という方向です。
政府機関や重要インフラ事業者(金融・電力・通信)での中国AI利用は段階的に制限される見通し。一方、一般企業の利用については、企業の自主判断に委ねる流れです。米国の動向に追随する形になりそうです。
Q. オープンウェイトのメリットは何ですか?
A. 自由度・コスト・データ管理の3点で大きな差があります。
具体的には①自社用にファインチューニング可能、②API料金が不要(GPU代のみ)、③データを外に出さずに済む、の3点が大きなメリット。一方、サポート・安定性・最新性ではクローズド商用モデルが優位です。
まとめ
- 2026年5月、米CAISIがDeepSeek V4 Proを「米主要AIに8カ月遅れ」と評価
- 同時に「現状最も高性能な中国製AI」とも認定
- 評価は9ベンチマーク・35モデル比較の大規模調査
- 5領域:サイバー・SE・自然科学・抽象推論・数学
- コスト効率では7中5で米国モデルを上回る
- DeepSeek自己申告(GPT-5.4並み)とCAISI評価で6カ月の認識差
- V4 Proは1.6兆パラ・MITライセンス・75%割引で米大手の15〜20分の1価格
- 日本企業は用途と機密度で使い分けが現実解
- 政府機関・重要インフラでの利用は規制方向
次のアクション: 自社の業務を「機密度」と「コスト感度」の2軸で分類し、どこから低コストAIに置き換えられるか棚卸ししてみましょう。
参考文献
- CAISI Evaluation of DeepSeek V4 Pro(NIST公式、2026年5月)
- DeepSeek V4 Pro、米国主要AIに8カ月遅れと米CAISI評価(Gigazine、2026年5月12日)
- DeepSeek V4 trails US frontier by eight months, according to CAISI evaluation(Digital Watch Observatory)
- NIST Says DeepSeek Is 8 Months Behind. DeepSeek Disagrees.(TechFastForward)
- DeepSeek-V4-Pro(Hugging Face公式リポジトリ)

