自然言語でVLMによるコンピューター操作の完全自動化を可能にするオープンソースのGUIアプリ・「UI-TARS Desktop」

Ads

UI-TARS Desktop

自然言語でコンピューター操作を完全自動化できるオープンソースのGUIアプリ・「UI-TARS Desktop」
UI-TARS Desktopは自然言語でVLMによるコンピューター操作の完全自動化を可能にするオープンソースのGUIアプリです。TikTokの運営会社であるByteDanceが公開しています。

UI-TARSはVLM(Vision Language Model:大規模視覚言語。画像や動画などとテキストを統合処理して理解するAIモデル)として開発されたモデルで、これをGUIで簡単に操作できるようにしたもの。

シンプルにプロンプトの入力エリアと入力後の操作内容を示すエリアだけが用意されたインターフェースとなっており、入力された内容を元にデスクトップの状態を視覚的に認識してマウス操作やキーボード操作を行ってくれます。

Ads

たとえばプロンプトとして「TwitterにHello Worldと投稿して」と書く事でブラウザの立ち上げ、Twitterの検索からHello Worldという内容の投稿までを全自動で行う、というものになります。

現在のところWindowsとMacOSに対応、Hugging Faceに2B、7B、72Bの3通りのボリュームのモデルが用意してあるそうなのでお使いのコンピューター性能に合わせて選ぶことも出来るそうです。

詳細は以下のByteDanceが公開したリポジトリで。簡単な導入手順や動作サンプルの動画の閲覧が可能です。ライセンスはApache-2.0。

UI-TARS Desktop