Ollama llama3.2-vision を intel N100 16GB メモリ環境で試してみた！画像認識能力は？

最近リリースされた Ollama llama3.2-vision (https://ollama.com/blog/llama3.2-vision)を、Windows 11 (16GB メモリ) 環境で試してみました！llama3.2-vision は、画像認識能力を持つ LLM モデルで、画像の内容を理解して説明してくれるのが特徴です。今回は、我が家の愛猫ちゃんの写真を使って、その実力を検証してみました。

ollamaとは？
実行環境
実行方法
実行結果
まとめ

ollamaとは？

ollamaは、LLMをローカル環境で効率よく実行するためのランタイム環境です。特徴は次のとおりです。

シンプルで使いやすい: コマンドラインインターフェースで、LLMの起動、停止、管理などが簡単に行えます。
高速で効率的: 複数のGPUに対応し、高速な推論処理を実現します。
柔軟性が高い: さまざまなLLMに対応し、カスタマイズも可能です。

Ollamaの環境構築について知りたい方はこちら

実行環境

OS: Windows 11
メモリ: 16GB
CPU: Intel Celeron N100

実行方法

Ollama の公式ドキュメントを参考に、Python コードを作成しました。

# -*- coding: utf-8 -*-
import ollama
import os
import time

# 実行ファイルのディレクトリを取得
current_dir = os.path.dirname(os.path.abspath(__file__))
# 画像ファイルのパスを作成
image_path = os.path.join(current_dir, "image.png")

start_time = time.time()

response = ollama.chat(
    model='llama3.2-vision',
    messages=[{
        'role': 'user',
        'content': 'この画像について説明してください。',
        'images': [image_path]
    }]
)

end_time = time.time()
elapsed_time = end_time - start_time

print(f"Response: {response['message']['content']}")
print(f"Elapsed time: {elapsed_time:.2f} seconds")

# -*- coding: utf-8 -*-
は日本語を使用するためのおまじないです。

試した画像。

実行結果

画像認識の結果、猫であることは正しく認識していて、猫の毛色や目の色、撮影場所などをそれっぽく認識していました。

Response:

### 画像の詳細：

*   この画像は、上から見た白い猫の顔が写っている。
*   彼女は頭を上に向けているので、彼女の目が下に映ります。
*   彼女の毛色は、白い毛と淡い黄色の毛が混ざったようなものです。
*   彼女の目の色は緑ですが、彼女の瞳孔は薄く見え、金色もしくは茶色に見えるように見えます。
*   彼女の耳は左右に開いており、彼らは白い毛で覆われています。

### 画像を撮影した場所：

*   この画像が撮影されたのは室内です。壁や床には、薄く灰色の布のようなものが張られています。
*   その部屋の色彩は、灰色と茶色に染められているように見えます。

この猫のような表情の猫を撮影することは、写真家にとって大変なことかもしれません。彼女は自分の頭を上に向けて、視線を下に向けているため、彼女の目が画像の中で一番大きく見えるようになります。
しかし、猫の顔が写っていることで、この画像は好ましい印象を与えます。これらの特徴により、この写真は「美しさ」や「可愛さ」を伝えています。
Elapsed time: 350.21 seconds