About
Works
Publications

AI Agent with Vision

2023/03/12

画像キャプションAIで視覚を持ったGPTエージェントの実装

GPT-4oといった大規模視覚言語モデルが出ていない時代に,LLMとの対話に画像キャプションモデル(BLIP)の結果を挿入することで,視覚を交えたLLMエージェントとの会話を可能にした.遅延を自然に見せるため,あえてZoomで会話しているようなインターフェースを採用した.

使用言語

C#C#
Python

タグ

#GPT#AI#マルチモーダルモデル