PageAgent完全解説｜Alibaba発のオープンソースWeb AIエージェント、自然言語でブラウザ操作を自動化

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

PageAgentはAlibaba開発のオープンソースAI Webエージェント。自然言語でWebページを操作できるJavaScriptフレームワーク
ブラウザ拡張機能やヘッドレスブラウザが不要。ページ内のJavaScriptだけで動作する軽量設計
スクリーンショットではなくDOM（ページ構造）を直接解析。高速かつ正確な要素特定が可能
操作許可リスト（allowlist）でAIの行動を制限可能。「クリックのみ許可」「読み取りのみ」など安全に制御
Chrome拡張「Page Agent Ext」も提供。複数タブを横断してWebページをAIで操作

「このWebフォームの入力を自動化したい」「毎日この管理画面からデータを取得したい」——こうした作業を、プログラミングなしで自然言語の指示だけで実現できるとしたら？Alibabaが開発したオープンソースのPageAgentは、Webページの中に「住む」AIエージェント。ブラウザ拡張機能もヘッドレスブラウザも不要、ページ内のJavaScriptだけで動作する軽量なWeb自動化フレームワークを解説します。

PageAgentとは？｜Webページに「住む」AIエージェント

PageAgent（page-agent.js）は、Alibabaが開発したオープンソースのインページGUIエージェントです。

インページ動作 — ブラウザ拡張機能やSeleniumのような外部ツールが不要。ページ内のJavaScriptだけで動作する埋め込み型エージェント
自然言語操作 — 「このフォームに名前と住所を入力して送信して」と日本語や英語で指示するだけでWebページを操作
DOM解析 — スクリーンショット（画像認識）ではなくDOM（ドキュメント・オブジェクト・モデル）を直接解析。テキストベースの処理で高速かつ正確
オープンソース — GitHubで公開（alibaba/page-agent）。MIT ライセンスで商用利用可能

たとえるなら、従来のブラウザ自動化ツール（Selenium等）が「ブラウザの外から操縦するリモコン」なら、PageAgentは「Webページの中に住んで中から操作するアシスタント」。ページの構造を内側から理解しているので、より正確で高速な操作が可能です。

従来のRPA・ブラウザ自動化との違い

RPA（Robotic Process Automation） — 画面の位置やピクセルに依存。UIが少し変わると動かなくなる。自然言語指示は不可
Selenium / Puppeteer — プログラミング必須。CSSセレクタやXPathの知識が必要
Browser-Use等のAIツール — ブラウザ全体を外部から制御。スクリーンショットベースでやや遅い
PageAgent — プログラミング不要＋DOM直接解析＋ページ内動作。自然言語で指示し、DOMをテキストとして解析するため、UI変更にも柔軟に対応

たとえるなら、RPAが「目を閉じて決まった手順を覚えるロボット」なら、PageAgentは「目を開けて状況を理解しながら動くアシスタント」。ページの構造が変わっても、要素の意味を理解して適切に操作します。

主要機能の詳細

1. DOM解析によるインテリジェントな操作

ビジョンモデル（画像認識AI）に依存せず、DOMをテキストとして解析
複雑な業務システム（B2B管理画面など）でも、正確な要素の特定と操作が可能
スクリーンショットベースより高速で安定

2. 操作許可リスト（Allowlist）

AIが実行できる操作を事前に制限できるセキュリティ機能
「クリックのみ許可」「テキスト読み取りのみ」「フォーム入力は禁止」など細かい制御が可能
許可されていない操作はシステムが自動的にブロック

3. Chrome拡張「Page Agent Ext」

Chrome Web Storeからインストール可能な拡張機能
複数タブを横断して自然言語でWebページを操作
スクリプト不要で、ブラウザ上から直接AIに指示

実践的な活用例

管理画面のデータ収集 — 「この管理画面から今月の売上データを抽出して」→ AIが画面を操作してデータを取得
フォーム入力の自動化 — 「この応募フォームに名前、住所、メールを入力して送信して」→ 繰り返しのフォーム入力を自動化
競合サイトの定期チェック — 「毎日この3サイトの価格を確認して」→ 定型的なWeb巡回を自動化
テスト自動化 — Webアプリケーションの操作テストを自然言語で記述・実行

セキュリティと注意点

操作許可リストの活用 — 本番環境では必ずallowlistを設定し、AIの行動範囲を制限
認証情報の取り扱い — パスワードやクレジットカード情報の入力には慎重な運用が必要
利用規約の確認 — 自動操作を禁止しているWebサービスもあるため、対象サイトの利用規約を確認
レート制限 — 大量アクセスはサーバーに負荷をかけるため、適切な間隔を設ける

よくある質問（FAQ）

Q. プログラミングの知識は必要ですか？

Chrome拡張を使う場合はプログラミング不要です。

自然言語で指示するだけで操作できます。

開発者が自社サービスに組み込む場合は、JavaScriptの基礎知識が必要です。

Q. どのLLM（言語モデル）を使いますか？

PageAgentはLLMに依存しない設計で、OpenAI GPT、Claude、Geminiなど任意のLLMと組み合わせて使用できます。

Q. 商用利用は可能ですか？

はい。

MITライセンスで公開されており、商用利用可能です。

ただし、操作対象のWebサイトの利用規約は別途確認してください。

Q. 日本語で指示できますか？

はい。自然言語処理はLLMに依存するため、日本語対応のLLM（GPT-5、Claude、Geminiなど）を使用すれば日本語での指示が可能です。

まとめ

この記事のポイントを振り返りましょう。

PageAgentはAlibaba開発のオープンソースWeb自動化フレームワーク。ページ内JavaScriptだけで動作
スクリーンショットではなくDOMを直接解析。高速・正確な要素操作が可能
操作許可リストでAIの行動範囲を安全に制限。セキュリティを確保しつつ自動化
Chrome拡張でプログラミング不要のWeb操作が可能。複数タブの横断操作にも対応
RPA・Seleniumの次世代の選択肢として、自然言語ベースのWeb自動化を実現

PageAgentが提示するのは、「Webサイトの操作を人間が行う必要がなくなる」未来です。

管理画面のクリック、フォームの入力、データの取得——これらすべてを自然言語で指示するだけ。

Web操作の「手作業」が終わる日が、近づいています。

参考文献

Alibaba. (2026). PageAgent.js – AI-powered GUI Agent. PageAgent公式
GitHub. (2026). alibaba/page-agent: JavaScript in-page GUI agent. GitHub
PageAgent. (2026). PageAgent: Alibaba GUI Agent Living in Your Webpage. PageAgent.net
Chrome Web Store. (2026). Page Agent Ext. Chrome Web Store
DEV Community. (2026). PageAgent: The GUI Agent Living in Your Web Page. DEV Community