最近リリースされた Ollama llama3.2-vision (https://ollama.com/blog/llama3.2-vision)を、Windows 11 (16GB メモリ) 環境で試してみました!llama3.2-vision は、画像認識能力を持つ LLM モデルで、画像の内容を理解して説明してくれるのが特徴です。今回は、我が家の愛猫ちゃんの写真を使って、その実力を検証してみました。
ollamaとは?
ollamaは、LLMをローカル環境で効率よく実行するためのランタイム環境です。特徴は次のとおりです。
- シンプルで使いやすい: コマンドラインインターフェースで、LLMの起動、停止、管理などが簡単に行えます。
- 高速で効率的: 複数のGPUに対応し、高速な推論処理を実現します。
- 柔軟性が高い: さまざまなLLMに対応し、カスタマイズも可能です。
Ollamaの環境構築について知りたい方はこちら
実行環境
- OS: Windows 11
- メモリ: 16GB
- CPU: Intel Celeron N100
実行方法
Ollama の公式ドキュメントを参考に、Python コードを作成しました。
# -*- coding: utf-8 -*-
import ollama
import os
import time
# 実行ファイルのディレクトリを取得
current_dir = os.path.dirname(os.path.abspath(__file__))
# 画像ファイルのパスを作成
image_path = os.path.join(current_dir, "image.png")
start_time = time.time()
response = ollama.chat(
model='llama3.2-vision',
messages=[{
'role': 'user',
'content': 'この画像について説明してください。',
'images': [image_path]
}]
)
end_time = time.time()
elapsed_time = end_time - start_time
print(f"Response: {response['message']['content']}")
print(f"Elapsed time: {elapsed_time:.2f} seconds")
# -*- coding: utf-8 -*-
は日本語を使用するためのおまじないです。
試した画像。
実行結果
画像認識の結果、猫であることは正しく認識していて、猫の毛色や目の色、撮影場所などをそれっぽく認識していました。
Response:
### 画像の詳細:
* この画像は、上から見た白い猫の顔が写っている。
* 彼女は頭を上に向けているので、彼女の目が下に映ります。
* 彼女の毛色は、白い毛と淡い黄色の毛が混ざったようなものです。
* 彼女の目の色は緑ですが、彼女の瞳孔は薄く見え、金色もしくは茶色に見えるように見えます。
* 彼女の耳は左右に開いており、彼らは白い毛で覆われています。
### 画像を撮影した場所:
* この画像が撮影されたのは室内です。壁や床には、薄く灰色の布のようなものが張られています。
* その部屋の色彩は、灰色と茶色に染められているように見えます。
この猫のような表情の猫を撮影することは、写真家にとって大変なことかもしれません。彼女は自分の頭を上に向けて、視線を下に向けているため、彼女の目が画像の中で一番大きく見えるようになります。
しかし、猫の顔が写っていることで、この画像は好ましい印象を与えます。これらの特徴により、この写真は「美しさ」や「可愛さ」を伝えています。
Elapsed time: 350.21 seconds
まとめ
Intel N100 では、約13分という長い時間がかかりましたが、画像の内容をそれっぽく説明できていました。猫の顔や毛色、撮影場所など、画像から多くの情報を抽出しており、画像認識能力はある程度実用的なのではないかと印象です
時間が待てる方は、IntelN100でもいいですが、高性能PCで使う方がより良い結果が得られると思います。
今回使用したPCはこちらです。
※2024年11月現在で、Amazonであれば5500円クーポンを使って、23000円ほどで購入可能です。
リンク
こちらのPCの紹介はこちらでしていますので、参考にしてください。
この記事が、あなたの参考になれば幸いです。
コメント