UI-TARS Desktop
UI-TARS Desktopは自然言語でVLMによるコンピューター操作の完全自動化を可能にするオープンソースのGUIアプリです。TikTokの運営会社であるByteDanceが公開しています。
UI-TARSはVLM(Vision Language Model:大規模視覚言語。画像や動画などとテキストを統合処理して理解するAIモデル)として開発されたモデルで、これをGUIで簡単に操作できるようにしたもの。
シンプルにプロンプトの入力エリアと入力後の操作内容を示すエリアだけが用意されたインターフェースとなっており、入力された内容を元にデスクトップの状態を視覚的に認識してマウス操作やキーボード操作を行ってくれます。
たとえばプロンプトとして「TwitterにHello Worldと投稿して」と書く事でブラウザの立ち上げ、Twitterの検索からHello Worldという内容の投稿までを全自動で行う、というものになります。
現在のところWindowsとMacOSに対応、Hugging Faceに2B、7B、72Bの3通りのボリュームのモデルが用意してあるそうなのでお使いのコンピューター性能に合わせて選ぶことも出来るそうです。
詳細は以下のByteDanceが公開したリポジトリで。簡単な導入手順や動作サンプルの動画の閲覧が可能です。ライセンスはApache-2.0。