Gemini 3 FlashのComputer Useとは?AI自動操作を解説

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube

GoogleがGemini 3 Flashに「Computer Use(コンピューター・ユース)」機能を搭載しました。これはAIがパソコンの画面を見て、マウスやキーボードを自動で操作できる機能です。さらに「Agentic Vision(エージェンティック・ビジョン)」という画像分析の新技術も追加され、AIの目と手がさらに賢くなりました。

この記事でわかること

  • Gemini 3 Flashの「Computer Use」機能とは何か
  • 新技術「Agentic Vision」の仕組みと性能
  • Claude Computer Useとの違い
  • 日本の企業や開発者への影響
  • 実際の活用例と今後の展望

Gemini 3 Flashとは?Googleの最新AIモデル

Gemini 3 Flashは、Googleが2025年12月に公開した最新のAIモデルです。上位モデル「Gemini 3 Pro」と同じレベルの推論すいろん能力(考える力)を持ちながら、処理速度が速くてコストも安いのが特長です。

たとえるなら、Gemini 3 Proが「じっくり考える大学教授」なら、Gemini 3 Flashは「素早く正確に答える優等生」のようなイメージです。しかも、この優等生はパソコンを自分で操作する能力まで持っています。

具体的な性能として、博士はかせレベルの知識テスト「GPQA Diamond」で90.4%のスコアを記録。コーディングの実力を測る「SWE-bench Verified」では78%と、上位モデルのGemini 3 Proを上回る結果を出しています。

Computer Use機能とは?AIがPCを自動操作

「Computer Use」とは、AIがパソコンの画面を見ながらマウスクリックやキーボード入力を自動で行う機能です。人間がパソコンを操作するのと同じように、AIが画面の内容を理解して次の操作を判断します。

たとえば「Excelでデータを整理して、グラフを作って、メールで送って」と指示すると、AIが自分でExcelを開き、データを整理し、グラフを作成し、メールアプリを起動して送信する――そんなことが可能になります。

以前のGemini 2.5シリーズでは、Computer Useを使うために専用の別モデルが必要でした。しかしGemini 3 Flashでは標準機能として組み込まれているため、追加の設定なしですぐに使えます。これは開発者にとって大きな改善です。

Agentic Visionの仕組み|AIの「目」が進化

Gemini 3 Flashにはもう一つの目玉機能があります。それが2026年1月末に発表された「Agentic Vision」です。従来のAIは画像を1回見て判断するだけでしたが、Agentic Visionは3つのステップで画像を深く分析します。

ステップ1:考える(Think)
ユーザーの指示と画像を見て、「何を調べるべきか」を計画します。

ステップ2:実行する(Act)
Pythonコードを自動生成して画像を加工します。拡大したり、切り抜いたり、注釈を付けたりして、細かい部分を確認します。

ステップ3:観察する(Observe)
加工した画像をもう一度見直して、より正確な回答を作ります。

つまり、人間が虫めがねで細部を確認するように、AIも「もっとよく見てみよう」と自分で判断できるようになったのです。この機能により、画像分析の精度が5〜10%向上したと報告されています。

Claude Computer Useとの違いは?

AIによるPC操作は、Anthropic社の「Claude Computer Use」が2024年に先駆けて発表しました。GoogleのGemini 3 Flashがこの分野に参入したことで、2大AIメーカーが競争きょうそうする形になっています。

Gemini 3 Flashの強み:

  • 処理速度が速く、応答時間が短い
  • コストが安い(入力100万トークンあたり約0.50ドル)
  • Agentic Visionによる高精度な画像理解
  • 「thinking_level」で推論の深さを4段階に調整可能

Claude Computer Useの強み:

  • 複雑な推論やバックエンド処理に強い
  • エージェント機能の安定性が高い
  • 先行者として実績とノウハウが豊富

簡単にまとめると、速さとコスト重視ならGemini 3 Flash複雑なタスクの正確性ならClaudeという使い分けになりそうです。

企業での活用例|建築図面チェックが5%精度アップ

すでに実際のビジネスで成果が出ています。建築図面の検証プラットフォーム「PlanCheckSolver.com」では、Agentic Visionを導入して精度が5%向上しました。高解像度の図面を部分ごとに拡大して確認できるため、建築基準きじゅんへの適合てきごうチェックがより正確になったのです。

ほかにも、以下のような活用が期待されています。

  • 書類処理:大量の請求書や契約書からデータを自動抽出
  • 品質検査:製品の外観検査をAIで自動化
  • 動画分析:監視カメラ映像の異常検出
  • 業務自動化:定型的なPC作業をAIに任せる

日本でもGoogle AI StudioやVertex AI経由で利用可能になっており、Google AI Plusプランも日本で提供が始まっています。

開発者はどう使う?APIの基本

開発者がGemini 3 FlashのComputer Use機能を使うには、Gemini APIを通じてアクセスします。Google公式の「GenAI SDK」が各言語向けに提供されており、Pythonなら数行のコードで呼び出せます。

特徴的なのが「thinking_level」パラメータです。これは、AIがどれくらい深く考えるかを4段階(minimal・low・medium・high)で調整できる機能です。

  • minimal:とにかく速く答えてほしいとき
  • low:簡単な質問に素早く回答
  • medium:バランスよく考えて回答
  • high:じっくり深く考えて回答(デフォルト)

Agentic Visionを使うには、コード実行(Code Execution)をツールとして設定するだけでOKです。難しい追加設定は必要ありません。

まとめ

Gemini 3 FlashのComputer Use機能とAgentic Visionについて解説しました。ポイントを振り返りましょう。

  • Gemini 3 Flashはパソコンの自動操作(Computer Use)を標準搭載
  • 新技術「Agentic Vision」で画像分析の精度が5〜10%向上
  • Think→Act→Observeの3ステップで画像を深く理解
  • Claude Computer Useとの2強時代に突入
  • 建築図面チェックなど実用事例がすでに登場
  • 日本でもGoogle AI Studio・Vertex AI経由で利用可能

AIがパソコンを自分で操作する時代が、いよいよ本格的に始まりました。GoogleとAnthropicの競争により、この技術はさらに進化していくと考えられます。ビジネスの自動化を考えている方は、今のうちにこれらのツールを試してみることをおすすめします。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です