PageAgent完全解説|Alibaba発のオープンソースWeb AIエージェント、自然言語でブラウザ操作を自動化

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • PageAgentはAlibaba開発のオープンソースAI Webエージェント。自然言語でWebページを操作できるJavaScriptフレームワーク
  • ブラウザ拡張機能やヘッドレスブラウザが不要。ページ内のJavaScriptだけで動作する軽量設計
  • スクリーンショットではなくDOM(ページ構造)を直接解析。高速かつ正確な要素特定が可能
  • 操作許可リスト(allowlist)でAIの行動を制限可能。「クリックのみ許可」「読み取りのみ」など安全に制御
  • Chrome拡張「Page Agent Ext」も提供。複数タブを横断してWebページをAIで操作

「このWebフォームの入力を自動化したい」「毎日この管理画面からデータを取得したい」——こうした作業を、プログラミングなしで自然言語の指示だけで実現できるとしたら?Alibabaが開発したオープンソースのPageAgentは、Webページの中に「住む」AIエージェント。ブラウザ拡張機能もヘッドレスブラウザも不要、ページ内のJavaScriptだけで動作する軽量なWeb自動化フレームワークを解説します。

PageAgentとは?|Webページに「住む」AIエージェント

PageAgent(page-agent.js)は、Alibabaが開発したオープンソースのインページGUIエージェントです。

  • インページ動作 — ブラウザ拡張機能やSeleniumのような外部ツールが不要。ページ内のJavaScriptだけで動作する埋め込み型エージェント
  • 自然言語操作 — 「このフォームに名前と住所を入力して送信して」と日本語や英語で指示するだけでWebページを操作
  • DOM解析 — スクリーンショット(画像認識)ではなくDOM(ドキュメント・オブジェクト・モデル)を直接解析。テキストベースの処理で高速かつ正確
  • オープンソース — GitHubで公開(alibaba/page-agent)。MIT ライセンスで商用利用可能

たとえるなら、従来のブラウザ自動化ツール(Selenium等)が「ブラウザの外から操縦するリモコン」なら、PageAgentは「Webページの中に住んで中から操作するアシスタント」。ページの構造を内側から理解しているので、より正確で高速な操作が可能です。

従来のRPA・ブラウザ自動化との違い

  • RPA(Robotic Process Automation) — 画面の位置やピクセルに依存。UIが少し変わると動かなくなる。自然言語指示は不可
  • Selenium / Puppeteer — プログラミング必須。CSSセレクタやXPathの知識が必要
  • Browser-Use等のAIツール — ブラウザ全体を外部から制御。スクリーンショットベースでやや遅い
  • PageAgentプログラミング不要+DOM直接解析+ページ内動作。自然言語で指示し、DOMをテキストとして解析するため、UI変更にも柔軟に対応

たとえるなら、RPAが「目を閉じて決まった手順を覚えるロボット」なら、PageAgentは「目を開けて状況を理解しながら動くアシスタント」。ページの構造が変わっても、要素の意味を理解して適切に操作します。

主要機能の詳細

1. DOM解析によるインテリジェントな操作

  • ビジョンモデル(画像認識AI)に依存せず、DOMをテキストとして解析
  • 複雑な業務システム(B2B管理画面など)でも、正確な要素の特定と操作が可能
  • スクリーンショットベースより高速で安定

2. 操作許可リスト(Allowlist)

  • AIが実行できる操作を事前に制限できるセキュリティ機能
  • 「クリックのみ許可」「テキスト読み取りのみ」「フォーム入力は禁止」など細かい制御が可能
  • 許可されていない操作はシステムが自動的にブロック

3. Chrome拡張「Page Agent Ext」

  • Chrome Web Storeからインストール可能な拡張機能
  • 複数タブを横断して自然言語でWebページを操作
  • スクリプト不要で、ブラウザ上から直接AIに指示

実践的な活用例

  • 管理画面のデータ収集 — 「この管理画面から今月の売上データを抽出して」→ AIが画面を操作してデータを取得
  • フォーム入力の自動化 — 「この応募フォームに名前、住所、メールを入力して送信して」→ 繰り返しのフォーム入力を自動化
  • 競合サイトの定期チェック — 「毎日この3サイトの価格を確認して」→ 定型的なWeb巡回を自動化
  • テスト自動化 — Webアプリケーションの操作テストを自然言語で記述・実行

セキュリティと注意点

  • 操作許可リストの活用 — 本番環境では必ずallowlistを設定し、AIの行動範囲を制限
  • 認証情報の取り扱い — パスワードやクレジットカード情報の入力には慎重な運用が必要
  • 利用規約の確認 — 自動操作を禁止しているWebサービスもあるため、対象サイトの利用規約を確認
  • レート制限 — 大量アクセスはサーバーに負荷をかけるため、適切な間隔を設ける

よくある質問(FAQ)

Q. プログラミングの知識は必要ですか?

Chrome拡張を使う場合はプログラミング不要です。

自然言語で指示するだけで操作できます。

開発者が自社サービスに組み込む場合は、JavaScriptの基礎知識が必要です。

Q. どのLLM(言語モデル)を使いますか?

PageAgentはLLMに依存しない設計で、OpenAI GPT、Claude、Geminiなど任意のLLMと組み合わせて使用できます。

Q. 商用利用は可能ですか?

はい。

MITライセンスで公開されており、商用利用可能です。

ただし、操作対象のWebサイトの利用規約は別途確認してください。

Q. 日本語で指示できますか?

はい。自然言語処理はLLMに依存するため、日本語対応のLLM(GPT-5、Claude、Geminiなど)を使用すれば日本語での指示が可能です。

まとめ

この記事のポイントを振り返りましょう。

  • PageAgentはAlibaba開発のオープンソースWeb自動化フレームワーク。ページ内JavaScriptだけで動作
  • スクリーンショットではなくDOMを直接解析。高速・正確な要素操作が可能
  • 操作許可リストでAIの行動範囲を安全に制限。セキュリティを確保しつつ自動化
  • Chrome拡張でプログラミング不要のWeb操作が可能。複数タブの横断操作にも対応
  • RPA・Seleniumの次世代の選択肢として、自然言語ベースのWeb自動化を実現

PageAgentが提示するのは、「Webサイトの操作を人間が行う必要がなくなる」未来です。

管理画面のクリック、フォームの入力、データの取得——これらすべてを自然言語で指示するだけ。

Web操作の「手作業」が終わる日が、近づいています。

参考文献

  • Alibaba. (2026). PageAgent.js – AI-powered GUI Agent. PageAgent公式
  • GitHub. (2026). alibaba/page-agent: JavaScript in-page GUI agent. GitHub
  • PageAgent. (2026). PageAgent: Alibaba GUI Agent Living in Your Webpage. PageAgent.net
  • Chrome Web Store. (2026). Page Agent Ext. Chrome Web Store
  • DEV Community. (2026). PageAgent: The GUI Agent Living in Your Web Page. DEV Community

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です