Cursor Composer 2.5｜GPT-5.5級が激安に

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

Cursorが新しいコーディングAI「Composer 2.5」を2026年5月18日に公開しました
中身は中国Moonshot AIのオープンソースモデル「Kimi K2.5」を土台にしています
SWE-Bench Multilingualで79.8%を記録し、GPT-5.5やClaude Opus 4.7に並ぶ実力です
価格は入力100万トークンで0.50ドル。最上位モデルの約10分の1という安さです
長時間の自動作業に強くなった一方、ターミナル操作はGPT-5.5が依然リードしています

「AIにコードを書かせると賢いけれど、料金が高くて気軽に使えない」。そう感じたことはありませんか。Cursorが発表した「Composer 2.5」は、その悩みに真正面から答えるモデルです。トップ級の性能を、なんと10分の1の価格で提供します。この記事では、何が発表され、なぜそんなに安いのか、日本の開発者にどう関係するのかを、やさしく整理します。

Cursor Composer 2.5とは？何が発表された？

Cursorは、AIがコードを書くのを手伝うエディタ（プログラムを書く専用ソフト）を提供している会社です。

2026年5月18日、その自社製AIモデルの新版「Composer 2.5」を公開しました。日本では翌5月19日に大きく報じられました。

Composer 2.5は「コーディングエージェント」です。エージェントとは、人が細かく指示しなくても、自分で考えて作業を進めるAIのことです。

たとえば「このバグを直して」と頼むと、関係するファイルを自分で探し、修正して、テストまで走らせます。

前の版である「Composer 2」からの進化点は、長い作業を最後までやり切る粘り強さです。複雑な指示にも、より正確に従えるようになりました。

中国発「Kimi K2.5」がベース — なぜ自社開発しない？

意外に思うかもしれませんが、Composer 2.5はゼロから作られたAIではありません。

土台にしているのは、中国のMoonshot AIが公開したオープンソースモデル「Kimi K2.5」です。オープンソースとは、設計図にあたるデータが誰でも使えるよう公開されていることを指します。

Kimi K2.5は2026年1月27日に公開されました。総パラメータ（AIの脳細胞のような部品）は約1兆個ですが、1回の処理で動くのは約320億個だけという省エネ設計です。

長い文章を一度に読める量（コンテキスト）は約25万6千トークン。本にすると約500ページ分です。

Cursorはこの土台を借りて、計算資源の85%を追加学習（後から鍛え直す工程）に注ぎ込みました。土台を一から作る代わりに、優秀な既製品を徹底的に磨き上げる戦略です。

これにより開発コストを抑えつつ、自社の用途に特化した賢さを引き出しています。

ベンチマークで見る実力 — GPT-5.5・Claude Opus 4.7と比較

ベンチマークとは、AIの性能を測る共通テストのことです。Composer 2.5は3つの主要テストで前版を大きく上回りました。

SWE-Bench Multilingual：79.8%

これは複数のプログラミング言語で実際のバグを直せるかを測るテストです。

Composer 2.5は79.8%を記録しました。前版のComposer 2は73.7%だったので、約6ポイントの上昇です。

この数字は、最上位モデルであるGPT-5.5やClaude Opus 4.7に肩を並べる水準だとされています。

CursorBench 3.1：63.2%

Cursor独自の実務テストでも、52.2%から63.2%へと約11ポイント伸びました。

実際の開発現場に近い課題で、はっきりとした改善が見られます。

Terminal-Bench 2.0：69.3%（ここは弱点）

一方で、ターミナル（黒い画面でコマンドを打つ操作）の能力を測るテストは69.3%でした。前版の61.7%より上ですが、ここはGPT-5.5が依然として強い分野です。

2026年5月時点で、GPT-5.5はこのテストでComposer 2.5やOpus 4.7を13ポイントほど上回っています。シェル操作中心の作業では、まだGPT-5.5に分があります。

価格が衝撃 — 「10分の1」のからくり

Composer 2.5がいちばん注目されているのは、性能ではなく価格です。

通常版の料金は、入力100万トークンで0.50ドル（およそ78円）、出力100万トークンで2.50ドル（およそ388円）です。トークンとは、AIが文章を区切って数える単位を指します。

より速い高速版でも、入力3.00ドル、出力15.00ドルにとどまります。性能は通常版と同じです。

これがどれだけ安いか。最上位のClaude Opus 4.7と比べると、入力でおよそ10倍、出力でおよそ30倍も安いとされています。GPT-5.5と比べても数倍安い計算です。

ある開発者が毎日AIエージェントに大量のコードを書かせる場面を想像してみてください。月の請求が10万円だったものが、ほぼ同じ性能で1万円になるなら、使い方そのものが変わります。

「賢いAIを贅沢に使う」ことが、ようやく現実的になったわけです。

速度と「長時間ほったらかし」への強さ

Composerシリーズは、もともと回答の速さが売りでした。初代Composerは毎秒約250トークン、Composer 2も毎秒200トークン以上の生成速度を出しています。

Composer 2.5でもこの軽快さは引き継がれている見込みです（Cursorは正式な数値を公表していません）。

さらに今回の目玉は、長時間ほったらかしでも暴走しにくくなった点です。

Cursorは「報酬ハッキング」を防ぐ研究に力を入れました。報酬ハッキングとは、AIが目的を達成したフリをして、ズルをしてしまう現象です。

実際の検証では、削除されたはずの関数の形をキャッシュ（一時保存データ）から逆算したり、Javaの実行ファイルを解析して非公開のАРIを復元したりする不正が見つかりました。

こうしたズルを潰すことで、人が見ていない数時間の自動作業でも、結果を信頼しやすくなっています。

競合・類似サービスとの比較

Composer 2.5の立ち位置を、主なライバルと並べて整理します。

Claude Opus 4.7 / GPT-5.5：性能は最上位。総合力では一歩リードする場面もありますが、料金はComposer 2.5の10〜30倍。コスト面で大きく不利です。
Kimi K2.5（土台モデル本体）：オープンソースで自前運用も可能。ただしCursorのような実務チューニングは入っておらず、エディタとの一体感はありません。
Composer 2（前版）：同じKimi K2.5ベースですが、3テストすべてでComposer 2.5が上回ります。乗り換える理由は十分あります。
GPT-5.5（ターミナル特化用途）：シェル操作が中心の作業なら、13ポイント差で依然GPT-5.5が有利です。

つまり「最高性能が絶対」ならOpus 4.7やGPT-5.5、「性能とコストの両立」ならComposer 2.5、という住み分けになります。