- UI-TARS(ユーアイタース)は、自然な言葉で指示するだけでPCを操作してくれる無料のAIエージェントです
- 開発したのは、TikTokで知られる中国のByteDance(バイトダンス)です
- 画面を「見て」マウスやキーボードを動かすのが特徴で、benchmarkではClaudeやGPT-4oを上回る成績も出しています
- ただしアプリ版は設定が難しく、現状は「気軽に使える完成品」とは言えない点に注意です
- 無料・オープンソースなので、興味のある人が自分で試すには面白い段階です
「PCの面倒な作業を、全部AIに任せられたら…」と思ったことはありませんか。フォルダ整理やスクショの保存を、口で言うだけでやってくれる。そんな未来に一歩近づくツールが、無料で公開されています。それがUI-TARS-desktopです。この記事では、UI-TARSが何者で、どこまで使えるのかを正直にお伝えします。
UI-TARSとは?無料でPCを操作するAIエージェント
UI-TARS(ユーアイタース)は、パソコンの画面を見て自分で操作してくれるAIです。
作ったのはByteDance(バイトダンス)。動画アプリTikTokを運営する、中国の大手IT企業です。
普通のアプリは、人がマウスでクリックして動かします。UI-TARSは、その「クリックする人」をAIが代わりにやってくれる、という発想です。
しかも無料・オープンソース(設計図が公開され誰でも使える)。GitHub(プログラムの共有サイト)で配布されています。公開後わずか2週間で2万7000以上の「スター(お気に入り)」を集めるほど注目されました。
何ができる?UI-TARSの主な機能
UI-TARSのいちばんの特徴は、画面を「目」で見て理解することです。
仕組みはシンプルです。まずPCのスクリーンショットを撮ります。その画像をAIが見て「今どんな画面か」を判断します。そして必要なマウス操作やキー入力を実行します。
たとえば、こんな指示ができます。
- 「デスクトップのスクショを撮って、今日の日付のフォルダを作って保存して」
- 「ブラウザを開いて、明日の東京の天気を調べて」
- 「この表計算ソフトのA列を合計して」
操作モードは2つあります。PC全体を動かすComputer Operatorと、ブラウザ内だけを動かすBrowser Operatorです。WindowsでもmacOSでも動きます。
どれくらい賢い?ベンチマークでの実力
「中国製の無料ツールでしょ?」と侮ってはいけません。性能テスト(benchmark)の数字はかなり優秀です。
2025年9月に出た改良版UI-TARS-2は、PC操作の難しさを測る「OSWorld」で47.5点を記録しました。スマホ操作の「AndroidWorld」では73.3点です。
これらの数字は、AnthropicのClaudeやOpenAIのagentを上回る場面もあります。実際、初期版でも画面理解の試験「VisualWebBench」で82.8%を出し、GPT-4oやClaude 3.5 Sonnetを抜きました。
つまりUI-TARSは、見た目こそ地味でも、中身は最先端クラスの実力を持つ研究成果なのです。
Claude・OpenAIの操作AIと何が違う?
PCを操作するAIは、UI-TARSだけではありません。代表的な3つを比べてみましょう。
- UI-TARS(ByteDance):無料・オープンソース。自分のPCで動かせる。スマホ操作にも強い
- Claude Computer Use(Anthropic):有料のAPI。WindowsやLinuxのデスクトップ操作が得意
- OpenAI Operator:主にブラウザ内の作業向け。安全な仮想環境で動く
いちばんの違いは「お金」と「自由度」です。ClaudeやOpenAIは使うたびに料金がかかります。一方UI-TARSは無料で、自分の環境に合わせて改造もできます。
逆に言うと、ClaudeやOpenAIは「すぐ使える完成品」。UI-TARSは「自分で組み立てる必要がある素材」に近いのです。
UI-TARSの使い方|導入から最初の指示まで
実際に試したい人向けに、大まかな流れを紹介します。
1. 必要なものを準備する
Windowsの場合、Git・Node.js(v20以上)・pnpm、そしてChromeなどのブラウザが必要です。少しだけ専門知識が要ります。
2. アプリを入れて、AIモデルをつなぐ
GitHubからアプリ本体を入手します。起動したら設定画面でAIモデル(頭脳の部分)を指定します。
自分のPC内で動かすなら、LM Studioのようなソフトと組み合わせ、ローカルのサーバーURLを入力します。
3. 権限を許可して、指示を出す
初回は「画面収録」「アクセシビリティ」「入力監視」の許可をすべてONにします。あとは新規タスクを作り、やってほしいことを日本語や英語で書くだけです。
使う前に知っておきたい注意点
ここからは正直な話です。良い評判だけではありません。
IT系メディアGIGAZINEが2026年6月に検証したところ、いくつかの問題が見つかりました。
まず「完全ローカル処理」をうたう割に、設定できるのはクラウド経由のモデルばかりだった点です。看板とのズレがあります。
さらに、説明書(ドキュメント)の整備が不十分で、開発の更新も止まり気味でした。結論として「今のところ実用にはまだ厳しい」という評価です。
つまりUI-TARSは、技術としては最先端でも、誰でもすぐ快適に使える状態ではないということです。試すなら、ある程度のIT知識と「うまく動かなくても楽しめる気持ち」が必要です。
日本のユーザーにとってどう関係する?
日本での利用に、特別な制限はありません。無料で誰でもダウンロードできます。
注目したいのは「ローカルで動かせる」という点です。自分のPC内で処理が完結すれば、社外にデータを出さずに済みます。情報管理が厳しい日本企業にとって、これは大きな魅力になり得ます。
ある中小企業の事務担当者を思い浮かべてください。毎朝、複数のサイトを開いて数字を転記する作業がある。こうした単純な繰り返しを、いつかAIに任せられる日が来るかもしれません。
ただし現状は、英語の情報が中心で、日本語の解説はまだ少なめです。本格普及はもう少し先、と考えておくのが現実的でしょう。
よくある質問(FAQ)
Q1. UI-TARSは本当に無料ですか?
はい。アプリ本体はオープンソースで無料です。ただし、つなぐAIモデルにクラウド版を選ぶと、その利用料が別にかかる場合があります。
Q2. プログラミングができなくても使えますか?
現状は少し難しいです。導入にGitやNode.jsの知識が要るため、まったくの初心者にはハードルが高めです。
Q3. 自分のPC内だけで完結できますか?
ローカルのモデルを使えば理論上は可能です。ただしGIGAZINEの検証では、クラウド前提の設定が多く、完全ローカルは簡単ではありませんでした。
Q4. ClaudeやChatGPTの操作機能とどちらが良いですか?
手軽さ重視ならClaudeやOpenAI、無料と自由度重視ならUI-TARSです。目的によって選び分けるのがおすすめです。
まとめ
UI-TARSのポイントを振り返ります。
- UI-TARSは、画面を見てPCを操作する無料のAIエージェント
- 開発元はByteDanceで、ベンチマークの実力は最先端クラス
- ClaudeやOpenAIと違い、無料・オープンソースで自由度が高い
- 一方でアプリ版は設定が難しく、今は実用に少し早い段階
- ローカル処理の将来性は高く、日本企業にも関係が深い
まずは公式GitHubをのぞいて、PC操作AIの「今」を自分の目で確かめてみてはいかがでしょうか。
参考文献
- 無料でローカルPCの操作を自動化できる「UI-TARS-desktop」について現状を確認してみた – GIGAZINE
- bytedance/UI-TARS-desktop – GitHub
- UI-TARS: Pioneering Automated GUI Interaction with Native Agents – arXiv
- ByteDance’s UI-TARS can take over your computer, outperforms GPT-4o and Claude – VentureBeat
- UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning – arXiv

