PC操作を丸投げ?無料AI「UI-TARS」の実力

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • UI-TARS(ユーアイタース)は、自然な言葉で指示するだけでPCを操作してくれる無料のAIエージェントです
  • 開発したのは、TikTokで知られる中国のByteDance(バイトダンス)です
  • 画面を「見て」マウスやキーボードを動かすのが特徴で、benchmarkではClaudeやGPT-4oを上回る成績も出しています
  • ただしアプリ版は設定が難しく、現状は「気軽に使える完成品」とは言えない点に注意です
  • 無料・オープンソースなので、興味のある人が自分で試すには面白い段階です

「PCの面倒な作業を、全部AIに任せられたら…」と思ったことはありませんか。フォルダ整理やスクショの保存を、口で言うだけでやってくれる。そんな未来に一歩近づくツールが、無料で公開されています。それがUI-TARS-desktopです。この記事では、UI-TARSが何者で、どこまで使えるのかを正直にお伝えします。

UI-TARSとは?無料でPCを操作するAIエージェント

UI-TARS(ユーアイタース)は、パソコンの画面を見て自分で操作してくれるAIです。

作ったのはByteDance(バイトダンス)。動画アプリTikTokを運営する、中国の大手IT企業です。

普通のアプリは、人がマウスでクリックして動かします。UI-TARSは、その「クリックする人」をAIが代わりにやってくれる、という発想です。

しかも無料・オープンソース(設計図が公開され誰でも使える)。GitHub(プログラムの共有サイト)で配布されています。公開後わずか2週間で2万7000以上の「スター(お気に入り)」を集めるほど注目されました。

何ができる?UI-TARSの主な機能

UI-TARSのいちばんの特徴は、画面を「目」で見て理解することです。

仕組みはシンプルです。まずPCのスクリーンショットを撮ります。その画像をAIが見て「今どんな画面か」を判断します。そして必要なマウス操作やキー入力を実行します。

たとえば、こんな指示ができます。

  • 「デスクトップのスクショを撮って、今日の日付のフォルダを作って保存して」
  • 「ブラウザを開いて、明日の東京の天気を調べて」
  • 「この表計算ソフトのA列を合計して」

操作モードは2つあります。PC全体を動かすComputer Operatorと、ブラウザ内だけを動かすBrowser Operatorです。WindowsでもmacOSでも動きます。

どれくらい賢い?ベンチマークでの実力

「中国製の無料ツールでしょ?」と侮ってはいけません。性能テスト(benchmark)の数字はかなり優秀です。

2025年9月に出た改良版UI-TARS-2は、PC操作の難しさを測る「OSWorld」で47.5点を記録しました。スマホ操作の「AndroidWorld」では73.3点です。

これらの数字は、AnthropicのClaudeやOpenAIのagentを上回る場面もあります。実際、初期版でも画面理解の試験「VisualWebBench」で82.8%を出し、GPT-4oやClaude 3.5 Sonnetを抜きました。

つまりUI-TARSは、見た目こそ地味でも、中身は最先端クラスの実力を持つ研究成果なのです。

Claude・OpenAIの操作AIと何が違う?

PCを操作するAIは、UI-TARSだけではありません。代表的な3つを比べてみましょう。

  • UI-TARS(ByteDance):無料・オープンソース。自分のPCで動かせる。スマホ操作にも強い
  • Claude Computer Use(Anthropic):有料のAPI。WindowsやLinuxのデスクトップ操作が得意
  • OpenAI Operator:主にブラウザ内の作業向け。安全な仮想環境で動く

いちばんの違いは「お金」と「自由度」です。ClaudeやOpenAIは使うたびに料金がかかります。一方UI-TARSは無料で、自分の環境に合わせて改造もできます。

逆に言うと、ClaudeやOpenAIは「すぐ使える完成品」。UI-TARSは「自分で組み立てる必要がある素材」に近いのです。

UI-TARSの使い方|導入から最初の指示まで

実際に試したい人向けに、大まかな流れを紹介します。

1. 必要なものを準備する

Windowsの場合、Git・Node.js(v20以上)・pnpm、そしてChromeなどのブラウザが必要です。少しだけ専門知識が要ります。

2. アプリを入れて、AIモデルをつなぐ

GitHubからアプリ本体を入手します。起動したら設定画面でAIモデル(頭脳の部分)を指定します。

自分のPC内で動かすなら、LM Studioのようなソフトと組み合わせ、ローカルのサーバーURLを入力します。

3. 権限を許可して、指示を出す

初回は「画面収録」「アクセシビリティ」「入力監視」の許可をすべてONにします。あとは新規タスクを作り、やってほしいことを日本語や英語で書くだけです。

使う前に知っておきたい注意点

ここからは正直な話です。良い評判だけではありません。

IT系メディアGIGAZINEが2026年6月に検証したところ、いくつかの問題が見つかりました。

まず「完全ローカル処理」をうたう割に、設定できるのはクラウド経由のモデルばかりだった点です。看板とのズレがあります。

さらに、説明書(ドキュメント)の整備が不十分で、開発の更新も止まり気味でした。結論として「今のところ実用にはまだ厳しい」という評価です。

つまりUI-TARSは、技術としては最先端でも、誰でもすぐ快適に使える状態ではないということです。試すなら、ある程度のIT知識と「うまく動かなくても楽しめる気持ち」が必要です。

日本のユーザーにとってどう関係する?

日本での利用に、特別な制限はありません。無料で誰でもダウンロードできます。

注目したいのは「ローカルで動かせる」という点です。自分のPC内で処理が完結すれば、社外にデータを出さずに済みます。情報管理が厳しい日本企業にとって、これは大きな魅力になり得ます。

ある中小企業の事務担当者を思い浮かべてください。毎朝、複数のサイトを開いて数字を転記する作業がある。こうした単純な繰り返しを、いつかAIに任せられる日が来るかもしれません。

ただし現状は、英語の情報が中心で、日本語の解説はまだ少なめです。本格普及はもう少し先、と考えておくのが現実的でしょう。

よくある質問(FAQ)

Q1. UI-TARSは本当に無料ですか?
はい。アプリ本体はオープンソースで無料です。ただし、つなぐAIモデルにクラウド版を選ぶと、その利用料が別にかかる場合があります。

Q2. プログラミングができなくても使えますか?
現状は少し難しいです。導入にGitやNode.jsの知識が要るため、まったくの初心者にはハードルが高めです。

Q3. 自分のPC内だけで完結できますか?
ローカルのモデルを使えば理論上は可能です。ただしGIGAZINEの検証では、クラウド前提の設定が多く、完全ローカルは簡単ではありませんでした。

Q4. ClaudeやChatGPTの操作機能とどちらが良いですか?
手軽さ重視ならClaudeやOpenAI、無料と自由度重視ならUI-TARSです。目的によって選び分けるのがおすすめです。

まとめ

UI-TARSのポイントを振り返ります。

  • UI-TARSは、画面を見てPCを操作する無料のAIエージェント
  • 開発元はByteDanceで、ベンチマークの実力は最先端クラス
  • ClaudeやOpenAIと違い、無料・オープンソースで自由度が高い
  • 一方でアプリ版は設定が難しく、今は実用に少し早い段階
  • ローカル処理の将来性は高く、日本企業にも関係が深い

まずは公式GitHubをのぞいて、PC操作AIの「今」を自分の目で確かめてみてはいかがでしょうか。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です