VisionGPT
VisionGPTは任意の画像をアップロードするだけで Geminiによる画像解析が可能なオープンソースのWebアプリです。アプリの名前と使用モデルが合っていませんが、GPT=AI的なものという強いイメージが世間に付いている印象ですし、その辺を利用したいのかもしれませんがOpenAIのGPTモデルは使われていません。
単純に画像をアップロードすると即解析し、結果をテキストで提示してくれる、というもの。AIモデルにGemini Pro Visionが使われています。動作確認出来る公開済みのWebアプリ及びリポジトリのソースコードでは仕様上、一定のクレジットをユーザー毎に付与し、亡くなり次第課金を促すようになっていますが、ローカル等で動かす際はAPI周りに加えてこの辺のコードを変更する必要があります。
このアプリはシンプルに画像を解析して説明を返すだけのものですが、精度は非常に高い印象でした。また、明らかに日本の画像と分かるものは自動で日本語で返してくる点も地味に驚きました。今後、画像解析は当たり前の日常になると思われます。今のうちに触っておきたい、という開発者の方には丁度いい学習用になるかと思います。
余談
生成AIによる画像解析は単にその画像を説明できるという点に留まらず、画像の内容を理解し、その結果から新たな洞察を得る事も出来るため、個人的には非常に大きな期待を寄せています。
思いつくだけでも例えばレントゲン写真やMRIを解析させて人の眼では見過ごしていた病巣を発見したり、衛星写真や空撮などから地球上や宇宙における未知の発見に繋げたり、データをビジュアライズしたチャートから分析したりなどなど、特に医療面での期待は大きいのではないでしょうか。実際、AI向けGPUサーバーで1強状態のNvidiaでも研究や医療関係でのAI利用を特に想定しています。
生成AIの進歩速度は目を見張るものがあり、各ビッグテックのAIに対する投資を見ても進歩速度は今後さらに加速する事は容易に想像出来ます。今後10年で今の生活は劇的に変化するかもしれませんね。