- PageAgentはAlibaba開発のオープンソースAI Webエージェント。自然言語でWebページを操作できるJavaScriptフレームワーク
- ブラウザ拡張機能やヘッドレスブラウザが不要。ページ内のJavaScriptだけで動作する軽量設計
- スクリーンショットではなくDOM(ページ構造)を直接解析。高速かつ正確な要素特定が可能
- 操作許可リスト(allowlist)でAIの行動を制限可能。「クリックのみ許可」「読み取りのみ」など安全に制御
- Chrome拡張「Page Agent Ext」も提供。複数タブを横断してWebページをAIで操作
「このWebフォームの入力を自動化したい」「毎日この管理画面からデータを取得したい」——こうした作業を、プログラミングなしで自然言語の指示だけで実現できるとしたら?Alibabaが開発したオープンソースのPageAgentは、Webページの中に「住む」AIエージェント。ブラウザ拡張機能もヘッドレスブラウザも不要、ページ内のJavaScriptだけで動作する軽量なWeb自動化フレームワークを解説します。
PageAgentとは?|Webページに「住む」AIエージェント
PageAgent(page-agent.js)は、Alibabaが開発したオープンソースのインページGUIエージェントです。
- インページ動作 — ブラウザ拡張機能やSeleniumのような外部ツールが不要。ページ内のJavaScriptだけで動作する埋め込み型エージェント
- 自然言語操作 — 「このフォームに名前と住所を入力して送信して」と日本語や英語で指示するだけでWebページを操作
- DOM解析 — スクリーンショット(画像認識)ではなくDOM(ドキュメント・オブジェクト・モデル)を直接解析。テキストベースの処理で高速かつ正確
- オープンソース — GitHubで公開(alibaba/page-agent)。MIT ライセンスで商用利用可能
たとえるなら、従来のブラウザ自動化ツール(Selenium等)が「ブラウザの外から操縦するリモコン」なら、PageAgentは「Webページの中に住んで中から操作するアシスタント」。ページの構造を内側から理解しているので、より正確で高速な操作が可能です。
従来のRPA・ブラウザ自動化との違い
- RPA(Robotic Process Automation) — 画面の位置やピクセルに依存。UIが少し変わると動かなくなる。自然言語指示は不可
- Selenium / Puppeteer — プログラミング必須。CSSセレクタやXPathの知識が必要
- Browser-Use等のAIツール — ブラウザ全体を外部から制御。スクリーンショットベースでやや遅い
- PageAgent — プログラミング不要+DOM直接解析+ページ内動作。自然言語で指示し、DOMをテキストとして解析するため、UI変更にも柔軟に対応
たとえるなら、RPAが「目を閉じて決まった手順を覚えるロボット」なら、PageAgentは「目を開けて状況を理解しながら動くアシスタント」。ページの構造が変わっても、要素の意味を理解して適切に操作します。
主要機能の詳細
1. DOM解析によるインテリジェントな操作
- ビジョンモデル(画像認識AI)に依存せず、DOMをテキストとして解析
- 複雑な業務システム(B2B管理画面など)でも、正確な要素の特定と操作が可能
- スクリーンショットベースより高速で安定
2. 操作許可リスト(Allowlist)
- AIが実行できる操作を事前に制限できるセキュリティ機能
- 「クリックのみ許可」「テキスト読み取りのみ」「フォーム入力は禁止」など細かい制御が可能
- 許可されていない操作はシステムが自動的にブロック
3. Chrome拡張「Page Agent Ext」
- Chrome Web Storeからインストール可能な拡張機能
- 複数タブを横断して自然言語でWebページを操作
- スクリプト不要で、ブラウザ上から直接AIに指示
実践的な活用例
- 管理画面のデータ収集 — 「この管理画面から今月の売上データを抽出して」→ AIが画面を操作してデータを取得
- フォーム入力の自動化 — 「この応募フォームに名前、住所、メールを入力して送信して」→ 繰り返しのフォーム入力を自動化
- 競合サイトの定期チェック — 「毎日この3サイトの価格を確認して」→ 定型的なWeb巡回を自動化
- テスト自動化 — Webアプリケーションの操作テストを自然言語で記述・実行
セキュリティと注意点
- 操作許可リストの活用 — 本番環境では必ずallowlistを設定し、AIの行動範囲を制限
- 認証情報の取り扱い — パスワードやクレジットカード情報の入力には慎重な運用が必要
- 利用規約の確認 — 自動操作を禁止しているWebサービスもあるため、対象サイトの利用規約を確認
- レート制限 — 大量アクセスはサーバーに負荷をかけるため、適切な間隔を設ける
よくある質問(FAQ)
Q. プログラミングの知識は必要ですか?
Chrome拡張を使う場合はプログラミング不要です。
自然言語で指示するだけで操作できます。
開発者が自社サービスに組み込む場合は、JavaScriptの基礎知識が必要です。
Q. どのLLM(言語モデル)を使いますか?
PageAgentはLLMに依存しない設計で、OpenAI GPT、Claude、Geminiなど任意のLLMと組み合わせて使用できます。
Q. 商用利用は可能ですか?
はい。
MITライセンスで公開されており、商用利用可能です。
ただし、操作対象のWebサイトの利用規約は別途確認してください。
Q. 日本語で指示できますか?
はい。自然言語処理はLLMに依存するため、日本語対応のLLM(GPT-5、Claude、Geminiなど)を使用すれば日本語での指示が可能です。
まとめ
この記事のポイントを振り返りましょう。
- PageAgentはAlibaba開発のオープンソースWeb自動化フレームワーク。ページ内JavaScriptだけで動作
- スクリーンショットではなくDOMを直接解析。高速・正確な要素操作が可能
- 操作許可リストでAIの行動範囲を安全に制限。セキュリティを確保しつつ自動化
- Chrome拡張でプログラミング不要のWeb操作が可能。複数タブの横断操作にも対応
- RPA・Seleniumの次世代の選択肢として、自然言語ベースのWeb自動化を実現
PageAgentが提示するのは、「Webサイトの操作を人間が行う必要がなくなる」未来です。
管理画面のクリック、フォームの入力、データの取得——これらすべてを自然言語で指示するだけ。
Web操作の「手作業」が終わる日が、近づいています。
参考文献
- Alibaba. (2026). PageAgent.js – AI-powered GUI Agent. PageAgent公式
- GitHub. (2026). alibaba/page-agent: JavaScript in-page GUI agent. GitHub
- PageAgent. (2026). PageAgent: Alibaba GUI Agent Living in Your Webpage. PageAgent.net
- Chrome Web Store. (2026). Page Agent Ext. Chrome Web Store
- DEV Community. (2026). PageAgent: The GUI Agent Living in Your Web Page. DEV Community


