2024-09-01から1ヶ月間の記事一覧

Python ローカルPCにて、視覚言語モデルVLMを操作する「transformers, huggingface」

本記事では、画像とプロンプト(命令文)を入力データとして、その回答を文章で生成するサンプルコードを掲載しました。この場合、視覚言語モデル(Vision Language Model, VLM)を用います。 使用したモデルは、Hugging Faceの「llava-calm2-siglip」です。…