本記事では、画像とプロンプト(命令文)を入力データとして、その回答を文章で生成するサンプルコードを掲載しました。この場合、視覚言語モデル(Vision Language Model, VLM)を用います。 使用したモデルは、Hugging Faceの「llava-calm2-siglip」です。…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。