PC操作を丸投げ？無料AI「UI-TARS」の実力

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

UI-TARS（ユーアイタース）は、自然な言葉で指示するだけでPCを操作してくれる無料のAIエージェントです
開発したのは、TikTokで知られる中国のByteDance（バイトダンス）です
画面を「見て」マウスやキーボードを動かすのが特徴で、benchmarkではClaudeやGPT-4oを上回る成績も出しています
ただしアプリ版は設定が難しく、現状は「気軽に使える完成品」とは言えない点に注意です
無料・オープンソースなので、興味のある人が自分で試すには面白い段階です

「PCの面倒な作業を、全部AIに任せられたら…」と思ったことはありませんか。フォルダ整理やスクショの保存を、口で言うだけでやってくれる。そんな未来に一歩近づくツールが、無料で公開されています。それがUI-TARS-desktopです。この記事では、UI-TARSが何者で、どこまで使えるのかを正直にお伝えします。

UI-TARSとは？無料でPCを操作するAIエージェント

UI-TARS（ユーアイタース）は、パソコンの画面を見て自分で操作してくれるAIです。

作ったのはByteDance（バイトダンス）。動画アプリTikTokを運営する、中国の大手IT企業です。

普通のアプリは、人がマウスでクリックして動かします。UI-TARSは、その「クリックする人」をAIが代わりにやってくれる、という発想です。

しかも無料・オープンソース（設計図が公開され誰でも使える）。GitHub（プログラムの共有サイト）で配布されています。公開後わずか2週間で2万7000以上の「スター（お気に入り）」を集めるほど注目されました。

何ができる？UI-TARSの主な機能

UI-TARSのいちばんの特徴は、画面を「目」で見て理解することです。

仕組みはシンプルです。まずPCのスクリーンショットを撮ります。その画像をAIが見て「今どんな画面か」を判断します。そして必要なマウス操作やキー入力を実行します。

たとえば、こんな指示ができます。

「デスクトップのスクショを撮って、今日の日付のフォルダを作って保存して」
「ブラウザを開いて、明日の東京の天気を調べて」
「この表計算ソフトのA列を合計して」

操作モードは2つあります。PC全体を動かすComputer Operatorと、ブラウザ内だけを動かすBrowser Operatorです。WindowsでもmacOSでも動きます。

どれくらい賢い？ベンチマークでの実力

「中国製の無料ツールでしょ?」と侮ってはいけません。性能テスト（benchmark）の数字はかなり優秀です。

2025年9月に出た改良版UI-TARS-2は、PC操作の難しさを測る「OSWorld」で47.5点を記録しました。スマホ操作の「AndroidWorld」では73.3点です。

これらの数字は、AnthropicのClaudeやOpenAIのagentを上回る場面もあります。実際、初期版でも画面理解の試験「VisualWebBench」で82.8%を出し、GPT-4oやClaude 3.5 Sonnetを抜きました。

つまりUI-TARSは、見た目こそ地味でも、中身は最先端クラスの実力を持つ研究成果なのです。

Claude・OpenAIの操作AIと何が違う？

PCを操作するAIは、UI-TARSだけではありません。代表的な3つを比べてみましょう。

UI-TARS（ByteDance）：無料・オープンソース。自分のPCで動かせる。スマホ操作にも強い
Claude Computer Use（Anthropic）：有料のAPI。WindowsやLinuxのデスクトップ操作が得意
OpenAI Operator：主にブラウザ内の作業向け。安全な仮想環境で動く

いちばんの違いは「お金」と「自由度」です。ClaudeやOpenAIは使うたびに料金がかかります。一方UI-TARSは無料で、自分の環境に合わせて改造もできます。

逆に言うと、ClaudeやOpenAIは「すぐ使える完成品」。UI-TARSは「自分で組み立てる必要がある素材」に近いのです。

UI-TARSの使い方｜導入から最初の指示まで

実際に試したい人向けに、大まかな流れを紹介します。

1. 必要なものを準備する

Windowsの場合、Git・Node.js（v20以上）・pnpm、そしてChromeなどのブラウザが必要です。少しだけ専門知識が要ります。

2. アプリを入れて、AIモデルをつなぐ

GitHubからアプリ本体を入手します。起動したら設定画面でAIモデル（頭脳の部分）を指定します。

自分のPC内で動かすなら、LM Studioのようなソフトと組み合わせ、ローカルのサーバーURLを入力します。

3. 権限を許可して、指示を出す

初回は「画面収録」「アクセシビリティ」「入力監視」の許可をすべてONにします。あとは新規タスクを作り、やってほしいことを日本語や英語で書くだけです。

使う前に知っておきたい注意点

ここからは正直な話です。良い評判だけではありません。

IT系メディアGIGAZINEが2026年6月に検証したところ、いくつかの問題が見つかりました。

まず「完全ローカル処理」をうたう割に、設定できるのはクラウド経由のモデルばかりだった点です。看板とのズレがあります。

さらに、説明書（ドキュメント）の整備が不十分で、開発の更新も止まり気味でした。結論として「今のところ実用にはまだ厳しい」という評価です。

つまりUI-TARSは、技術としては最先端でも、誰でもすぐ快適に使える状態ではないということです。試すなら、ある程度のIT知識と「うまく動かなくても楽しめる気持ち」が必要です。

日本のユーザーにとってどう関係する？

日本での利用に、特別な制限はありません。無料で誰でもダウンロードできます。

注目したいのは「ローカルで動かせる」という点です。自分のPC内で処理が完結すれば、社外にデータを出さずに済みます。情報管理が厳しい日本企業にとって、これは大きな魅力になり得ます。

ある中小企業の事務担当者を思い浮かべてください。毎朝、複数のサイトを開いて数字を転記する作業がある。こうした単純な繰り返しを、いつかAIに任せられる日が来るかもしれません。

ただし現状は、英語の情報が中心で、日本語の解説はまだ少なめです。本格普及はもう少し先、と考えておくのが現実的でしょう。

よくある質問（FAQ）

Q1. UI-TARSは本当に無料ですか?
はい。アプリ本体はオープンソースで無料です。ただし、つなぐAIモデルにクラウド版を選ぶと、その利用料が別にかかる場合があります。

Q2. プログラミングができなくても使えますか?
現状は少し難しいです。導入にGitやNode.jsの知識が要るため、まったくの初心者にはハードルが高めです。

Q3. 自分のPC内だけで完結できますか?
ローカルのモデルを使えば理論上は可能です。ただしGIGAZINEの検証では、クラウド前提の設定が多く、完全ローカルは簡単ではありませんでした。

Q4. ClaudeやChatGPTの操作機能とどちらが良いですか?
手軽さ重視ならClaudeやOpenAI、無料と自由度重視ならUI-TARSです。目的によって選び分けるのがおすすめです。

まとめ

UI-TARSのポイントを振り返ります。

UI-TARSは、画面を見てPCを操作する無料のAIエージェント
開発元はByteDanceで、ベンチマークの実力は最先端クラス
ClaudeやOpenAIと違い、無料・オープンソースで自由度が高い
一方でアプリ版は設定が難しく、今は実用に少し早い段階
ローカル処理の将来性は高く、日本企業にも関係が深い

まずは公式GitHubをのぞいて、PC操作AIの「今」を自分の目で確かめてみてはいかがでしょうか。

参考文献

こんな時代だから遊んで学びたい

AIを学ぶオンラインサロン「AIフレンズ」では、生成AIを楽しく、どこよりも優しく学べる環境をご用意しております。

毎週開催されるオンラインセッションでは、リアルタイムで学び合える機会を提供しています。さらに、月に一度のオフラインイベントでは、メンバー同士が直接交流し、アイデアや知識を深めることができます。

「AIフレンズ」の仲間とともに、新しい価値を創造し、可能性を広げてみませんか？

一緒に学び、成長しながら、生成AIを使いこなす力を身につけましょう！

今すぐAIフレンズに参加して、未来への第一歩を踏み出そう！！