Zap
ZapはPlasmo Framework + Next.jsで構築されたAIエージェントによるオープンソースのブラウザ自動化エクステンションです。現在の所はChromeの拡張の実の提供となっています。
最近よく見かける、ブラウザの作業のアレコレをAIで自動化しよう、というものになります。
動作の主な流れとしては、
プロンプトでタスクの内容を入力
↓
理解して実行(リンク等をクリック、値入力、キーを押す、ページスクロール、テキスト抽出)
↓
リスクのあるクリックの場合は保留し、報告、確認
↓
各ステップをライブで表示
↓
理解して実行(リンク等をクリック、値入力、キーを押す、ページスクロール、テキスト抽出)
↓
リスクのあるクリックの場合は保留し、報告、確認
↓
各ステップをライブで表示
と言った感じです。仕組みとしては現ページのスナップショットを撮り、APIで安全マージンを取ったプランニングを行い、ブラウザで実行し記録、送信アクション等のリスクある行動前に保留、という感じ。基本的にタスクが完了するまでは行動がループされます。
モデルにはgoogleのgemini-2.5-flashを採用との事です。Plasmo Frameworkはブラウザ拡張の開発フレームワークです。知らん、という方は本家サイトをご参照ください。
シンプルな設計と性能のバランスの良さを感じました。OSSですがChromeのウェブストアにも公開されているので動作テストも可能です。
