AIモデルはベンチで選ぶな｜NRI流4つの基準

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

NRI（野村総合研究所）が「ベンチマークだけでAIモデルの優劣は決まらない」と提言
NRIが業務向けに見る4つの評価基準（日本語文書・OCR・「分からない」力・複雑指示）がわかる
年に1回ではなく「月に1回」モデルを見直す理由
Claude・GPT・Geminiの最新スコアを比べると差はごくわずか
日本企業がAIモデル選びで失敗しないためのコツ

「結局、どのAIを業務に使えばいいの？」と迷ったことはありませんか。ランキングの数字を見ても、本当に自社の仕事に役立つかは別問題です。野村総合研究所（NRI）は「ベンチマークだけで選ぶのは危険」と指摘します。この記事では、NRIが実務でたどり着いた4つの選び方を、やさしく解説します。

NRIが「ベンチマークだけでは選べない」と言う理由

2026年6月10日、東京で開かれたAnthropic主催のイベント「Code with Claude」。

ここで登壇したのが、NRIのAIソリューション推進部長・北村雄騎（きたむらゆうき）さんです。

北村さんははっきりこう述べました。

「ベンチマークだけでAIモデルの優劣が決まるわけではない」。

ベンチマークとは、AIの賢さを共通テストで点数化した成績表のようなものです。

たしかに点数は便利です。でも、テストの点が高い人が、必ずしも自分の会社の仕事で活躍するとは限りませんよね。

AIも同じです。一般的なテストで高得点でも、日本語の契約書や社内マニュアルをうまく扱えるとは限りません。

だからNRIは、実際の業務をAIにやらせてみて、その結果を分析することを勧めています。

NRIが使う「4つの評価基準」

NRIは独自の社内ベンチマークを作り、次の4つの観点でAIモデルを測っています。

1. 日本語の業務文書をきちんと読めるか

日本企業が毎日使うのは、稟議書や報告書などの日本語文書です。

海外製のAIは英語が得意でも、日本語特有の言い回しでつまずくことがあります。

そこでNRIは、日本語の業務文書をどれだけ正確に解釈できるかを重視します。

2. 画像と文書を結びつけて理解できるか（OCR）

OCRとは、画像の中の文字を読み取る技術のことです。

請求書をスキャンした画像から金額を読み取り、内容まで理解できるか。

紙の書類が多い日本の現場では、この「画像×文書」の連携がとても大事になります。

3. 「分かりません」と正直に言えるか

これはとても面白い基準です。

AIは知らないことでも、それらしい答えをでっち上げてしまうことがあります。これをハルシネーション（AIがもっともらしい嘘をつくこと）と呼びます。

NRIは、知識が足りないときや話のつじつまが合わないときに、AIが「分かりません」と正しく報告できるかを見ます。

知ったかぶりをしないAIほど、業務では信頼できるのです。

4. たくさんの指示をまとめて守れるか

NRIが最も重要だと考えるのが、この「複雑指示の整合性」です。

一度に大量の指示を与えても、最後まで守り切れるか。

この力が高いほど、人がいちいち口を出さずに済みます。

つまり、人の手間が減り、AIに仕事を任せやすくなるということです。

なぜ「年1回」ではなく「月1回」見直すのか

もう一つ、NRIが大切にしている考え方があります。

それは「月次でモデルの切り替えを判断する仕組み」を持つことです。

AIモデルの進化は、とても速いです。

数か月前まで一番だったモデルが、すぐに別のモデルに抜かれることも珍しくありません。

だから「1年に1回見直す」では遅すぎるのです。

では、しょっちゅう乗り換えると大変では？　と思いますよね。

そこでNRIは、業務知識を言葉にして残しておくことを勧めます。

仕事のやり方を文章にしておけば、新しいモデルに乗り換えてもすぐ再利用できます。

引っ越しのときに、荷物を箱ごとに整理しておくと運びやすいのと似ています。

主要AIモデルを比べると、差はごくわずか

では実際に、人気のAIモデルはどれくらい差があるのでしょうか。

日本語性能をはかる「Nejumi Leaderboard 4」という指標では、上位3つはほぼ横並びでした。

Gemini 3.1 Pro：0.8430
Claude Opus 4.6：0.8394
GPT-5.2：0.8285

数字を見てのとおり、トップ3の差はほんのわずかです。

得意分野はモデルごとに違います。

たとえばClaude Opus 4.6は、知識を使う仕事の評価「GDPval-AA」で、GPT-5.2を約144ポイント上回りました。

一方でコストを見ると、Geminiの軽量版は入力100万トークンあたり約0.10ドルと、業界でも最安水準です。

GPT-5.4は、1つの作業で使うトークン量を従来より47%も減らしました。

つまり、賢さだけでなく「速さ」「安さ」「得意分野」で選ぶ時代になっているのです。

日本企業にとって、これは何を意味する？

日本企業がAIを選ぶとき、海外のランキングをそのまま信じるのは危険です。

なぜなら、英語ベースのモデルを日本語で使うと、不自然な表現やハルシネーションが起きやすいからです。

実際、デジタル庁の政府向けAI「源内」でも、わざと嘘を誘発するテストを行い、事実を守れるかを確かめています。

専門家は、AIモデル選びでは次の5つの軸を見るべきだと指摘します。

目的（何の業務に使うのか）
精度（どれだけ正確か）
セキュリティ（情報が漏れないか）
コスト（費用は見合うか）
カスタマイズ性（自社向けに調整できるか）

ある中小企業の経理担当者を想像してみてください。

月末に数百枚の請求書を1枚ずつ確認するのは大変な作業です。

このとき必要なのは「世界一賢いAI」ではなく、「日本語の請求書を正確に読み、間違えたら正直に教えてくれるAI」です。

NRIの考え方は、まさにこの現場目線に立っています。

実際にどう使い分ける？3つの活用シーン

「4つの基準」と言われても、具体的なイメージがわきにくいかもしれません。

身近な3つの場面で考えてみましょう。

1つ目は、カスタマーサポートです。

お客様からの問い合わせメールに下書き返信を作る仕事を想像してください。ここで大事なのは、たくさんの社内ルールを一度に守れる「複雑指示の整合性」です。料金規定や言葉づかいのルールを守り切れるモデルが向いています。

2つ目は、契約書のチェックです。

法務の担当者がPDFの契約書を確認する場面では、日本語文書の正確な読み取りと、画像から文字を起こすOCRの力が効いてきます。少しの読み間違いが大きなトラブルにつながるからです。

3つ目は、社内ヘルプデスクです。

「経費精算のやり方を教えて」といった質問にAIが答える場面では、「分からない」と正直に言える力が命綱になります。あいまいな情報を断言されると、かえって混乱を招くからです。

このように、業務が変われば「最適なモデル」も変わります。だからこそ、自社の仕事に当てはめて選ぶ視点が欠かせません。

よくある質問（FAQ）

Q1. ベンチマークの点数は見なくていいの？

いいえ、参考にはなります。ただし点数だけで決めず、自社の業務で試すことが大切です。

Q2. AIモデルは1つに絞るべき？

必ずしもそうではありません。文章作成はこのモデル、長文処理は別のモデル、と用途で使い分けるのが2026年の主流です。

Q3. ハルシネーションはどうすれば防げる？

完全にゼロにはできませんが、「分からない」と言えるモデルを選ぶことでリスクを減らせます。社内情報と照らし合わせる仕組みも有効です。

Q4. 中小企業でもこの選び方は使える？

使えます。まずは1つの業務に絞ってAIを試し、結果を見て判断する。この小さな一歩から始めるのがおすすめです。

まとめ

NRIが示したAIモデルの選び方を、最後に振り返ります。

ベンチマークの点数だけで優劣は決まらない
評価の軸は「日本語文書」「OCR」「分からない力」「複雑指示」の4つ
進化が速いので「月1回」見直す仕組みを持つ
主要モデルの差はわずか。速さ・安さ・得意分野で選ぶ
日本企業は日本語性能とセキュリティを特に重視すべき

まずは自社の業務を1つ選び、実際にAIに任せて結果を確かめてみましょう。それが、失敗しないAI選びの第一歩です。

参考文献

こんな時代だから遊んで学びたい

AIを学ぶオンラインサロン「AIフレンズ」では、生成AIを楽しく、どこよりも優しく学べる環境をご用意しております。

毎週開催されるオンラインセッションでは、リアルタイムで学び合える機会を提供しています。さらに、月に一度のオフラインイベントでは、メンバー同士が直接交流し、アイデアや知識を深めることができます。

「AIフレンズ」の仲間とともに、新しい価値を創造し、可能性を広げてみませんか？

一緒に学び、成長しながら、生成AIを使いこなす力を身につけましょう！

今すぐAIフレンズに参加して、未来への第一歩を踏み出そう！！