AI Agent with Vision

2023/03/12

画像キャプションAIで視覚を持ったGPTエージェントの実装

GPT-4oといった大規模視覚言語モデルが出ていない時代に，LLMとの対話に画像キャプションモデル（BLIP)の結果を挿入することで，視覚を交えたLLMエージェントとの会話を可能にした．遅延を自然に見せるため，あえてZoomで会話しているようなインターフェースを採用した．