2024-09-01から1ヶ月間の記事一覧

Python ローカルPCにて、視覚言語モデルVLMを操作する「transformers, huggingface」

Python 生成AI 画像処理

本記事では、画像とプロンプト（命令文）を入力データとして、その回答を文章で生成するサンプルコードを掲載しました。この場合、視覚言語モデル（Vision Language Model, VLM）を用います。使用したモデルは、Hugging Faceの「llava-calm2-siglip」です。…