- NRI(野村総合研究所)が「ベンチマークだけでAIモデルの優劣は決まらない」と提言
- NRIが業務向けに見る4つの評価基準(日本語文書・OCR・「分からない」力・複雑指示)がわかる
- 年に1回ではなく「月に1回」モデルを見直す理由
- Claude・GPT・Geminiの最新スコアを比べると差はごくわずか
- 日本企業がAIモデル選びで失敗しないためのコツ
「結局、どのAIを業務に使えばいいの?」と迷ったことはありませんか。ランキングの数字を見ても、本当に自社の仕事に役立つかは別問題です。野村総合研究所(NRI)は「ベンチマークだけで選ぶのは危険」と指摘します。この記事では、NRIが実務でたどり着いた4つの選び方を、やさしく解説します。
NRIが「ベンチマークだけでは選べない」と言う理由
2026年6月10日、東京で開かれたAnthropic主催のイベント「Code with Claude」。
ここで登壇したのが、NRIのAIソリューション推進部長・北村雄騎(きたむら ゆうき)さんです。
北村さんははっきりこう述べました。
「ベンチマークだけでAIモデルの優劣が決まるわけではない」。
ベンチマークとは、AIの賢さを共通テストで点数化した成績表のようなものです。
たしかに点数は便利です。でも、テストの点が高い人が、必ずしも自分の会社の仕事で活躍するとは限りませんよね。
AIも同じです。一般的なテストで高得点でも、日本語の契約書や社内マニュアルをうまく扱えるとは限りません。
だからNRIは、実際の業務をAIにやらせてみて、その結果を分析することを勧めています。
NRIが使う「4つの評価基準」
NRIは独自の社内ベンチマークを作り、次の4つの観点でAIモデルを測っています。
1. 日本語の業務文書をきちんと読めるか
日本企業が毎日使うのは、稟議書や報告書などの日本語文書です。
海外製のAIは英語が得意でも、日本語特有の言い回しでつまずくことがあります。
そこでNRIは、日本語の業務文書をどれだけ正確に解釈できるかを重視します。
2. 画像と文書を結びつけて理解できるか(OCR)
OCRとは、画像の中の文字を読み取る技術のことです。
請求書をスキャンした画像から金額を読み取り、内容まで理解できるか。
紙の書類が多い日本の現場では、この「画像×文書」の連携がとても大事になります。
3. 「分かりません」と正直に言えるか
これはとても面白い基準です。
AIは知らないことでも、それらしい答えをでっち上げてしまうことがあります。これをハルシネーション(AIがもっともらしい嘘をつくこと)と呼びます。
NRIは、知識が足りないときや話のつじつまが合わないときに、AIが「分かりません」と正しく報告できるかを見ます。
知ったかぶりをしないAIほど、業務では信頼できるのです。
4. たくさんの指示をまとめて守れるか
NRIが最も重要だと考えるのが、この「複雑指示の整合性」です。
一度に大量の指示を与えても、最後まで守り切れるか。
この力が高いほど、人がいちいち口を出さずに済みます。
つまり、人の手間が減り、AIに仕事を任せやすくなるということです。
なぜ「年1回」ではなく「月1回」見直すのか
もう一つ、NRIが大切にしている考え方があります。
それは「月次でモデルの切り替えを判断する仕組み」を持つことです。
AIモデルの進化は、とても速いです。
数か月前まで一番だったモデルが、すぐに別のモデルに抜かれることも珍しくありません。
だから「1年に1回見直す」では遅すぎるのです。
では、しょっちゅう乗り換えると大変では? と思いますよね。
そこでNRIは、業務知識を言葉にして残しておくことを勧めます。
仕事のやり方を文章にしておけば、新しいモデルに乗り換えてもすぐ再利用できます。
引っ越しのときに、荷物を箱ごとに整理しておくと運びやすいのと似ています。
主要AIモデルを比べると、差はごくわずか
では実際に、人気のAIモデルはどれくらい差があるのでしょうか。
日本語性能をはかる「Nejumi Leaderboard 4」という指標では、上位3つはほぼ横並びでした。
- Gemini 3.1 Pro:0.8430
- Claude Opus 4.6:0.8394
- GPT-5.2:0.8285
数字を見てのとおり、トップ3の差はほんのわずかです。
得意分野はモデルごとに違います。
たとえばClaude Opus 4.6は、知識を使う仕事の評価「GDPval-AA」で、GPT-5.2を約144ポイント上回りました。
一方でコストを見ると、Geminiの軽量版は入力100万トークンあたり約0.10ドルと、業界でも最安水準です。
GPT-5.4は、1つの作業で使うトークン量を従来より47%も減らしました。
つまり、賢さだけでなく「速さ」「安さ」「得意分野」で選ぶ時代になっているのです。
日本企業にとって、これは何を意味する?
日本企業がAIを選ぶとき、海外のランキングをそのまま信じるのは危険です。
なぜなら、英語ベースのモデルを日本語で使うと、不自然な表現やハルシネーションが起きやすいからです。
実際、デジタル庁の政府向けAI「源内」でも、わざと嘘を誘発するテストを行い、事実を守れるかを確かめています。
専門家は、AIモデル選びでは次の5つの軸を見るべきだと指摘します。
- 目的(何の業務に使うのか)
- 精度(どれだけ正確か)
- セキュリティ(情報が漏れないか)
- コスト(費用は見合うか)
- カスタマイズ性(自社向けに調整できるか)
ある中小企業の経理担当者を想像してみてください。
月末に数百枚の請求書を1枚ずつ確認するのは大変な作業です。
このとき必要なのは「世界一賢いAI」ではなく、「日本語の請求書を正確に読み、間違えたら正直に教えてくれるAI」です。
NRIの考え方は、まさにこの現場目線に立っています。
実際にどう使い分ける?3つの活用シーン
「4つの基準」と言われても、具体的なイメージがわきにくいかもしれません。
身近な3つの場面で考えてみましょう。
1つ目は、カスタマーサポートです。
お客様からの問い合わせメールに下書き返信を作る仕事を想像してください。ここで大事なのは、たくさんの社内ルールを一度に守れる「複雑指示の整合性」です。料金規定や言葉づかいのルールを守り切れるモデルが向いています。
2つ目は、契約書のチェックです。
法務の担当者がPDFの契約書を確認する場面では、日本語文書の正確な読み取りと、画像から文字を起こすOCRの力が効いてきます。少しの読み間違いが大きなトラブルにつながるからです。
3つ目は、社内ヘルプデスクです。
「経費精算のやり方を教えて」といった質問にAIが答える場面では、「分からない」と正直に言える力が命綱になります。あいまいな情報を断言されると、かえって混乱を招くからです。
このように、業務が変われば「最適なモデル」も変わります。だからこそ、自社の仕事に当てはめて選ぶ視点が欠かせません。
よくある質問(FAQ)
Q1. ベンチマークの点数は見なくていいの?
いいえ、参考にはなります。ただし点数だけで決めず、自社の業務で試すことが大切です。
Q2. AIモデルは1つに絞るべき?
必ずしもそうではありません。文章作成はこのモデル、長文処理は別のモデル、と用途で使い分けるのが2026年の主流です。
Q3. ハルシネーションはどうすれば防げる?
完全にゼロにはできませんが、「分からない」と言えるモデルを選ぶことでリスクを減らせます。社内情報と照らし合わせる仕組みも有効です。
Q4. 中小企業でもこの選び方は使える?
使えます。まずは1つの業務に絞ってAIを試し、結果を見て判断する。この小さな一歩から始めるのがおすすめです。
まとめ
NRIが示したAIモデルの選び方を、最後に振り返ります。
- ベンチマークの点数だけで優劣は決まらない
- 評価の軸は「日本語文書」「OCR」「分からない力」「複雑指示」の4つ
- 進化が速いので「月1回」見直す仕組みを持つ
- 主要モデルの差はわずか。速さ・安さ・得意分野で選ぶ
- 日本企業は日本語性能とセキュリティを特に重視すべき
まずは自社の業務を1つ選び、実際にAIに任せて結果を確かめてみましょう。それが、失敗しないAI選びの第一歩です。

