Ollama llama3.2-vision を intel N100 16GB メモリ環境 で試してみた!画像認識能力は?

最近リリースされた Ollama llama3.2-vision (https://ollama.com/blog/llama3.2-vision)を、Windows 11 (16GB メモリ) 環境で試してみました!llama3.2-vision は、画像認識能力を持つ LLM モデルで、画像の内容を理解して説明してくれるのが特徴です。今回は、我が家の愛猫ちゃんの写真を使って、その実力を検証してみました。

ollamaとは?

ollamaは、LLMをローカル環境で効率よく実行するためのランタイム環境です。特徴は次のとおりです。

  • シンプルで使いやすい: コマンドラインインターフェースで、LLMの起動、停止、管理などが簡単に行えます。
  • 高速で効率的: 複数のGPUに対応し、高速な推論処理を実現します。
  • 柔軟性が高い: さまざまなLLMに対応し、カスタマイズも可能です。

Ollamaの環境構築について知りたい方はこちら

実行環境

  • OS: Windows 11
  • メモリ: 16GB
  • CPU: Intel Celeron N100

実行方法

Ollama の公式ドキュメントを参考に、Python コードを作成しました。

# -*- coding: utf-8 -*-
import ollama
import os
import time

# 実行ファイルのディレクトリを取得
current_dir = os.path.dirname(os.path.abspath(__file__))
# 画像ファイルのパスを作成
image_path = os.path.join(current_dir, "image.png")

start_time = time.time()

response = ollama.chat(
    model='llama3.2-vision',
    messages=[{
        'role': 'user',
        'content': 'この画像について説明してください。',
        'images': [image_path]
    }]
)

end_time = time.time()
elapsed_time = end_time - start_time

print(f"Response: {response['message']['content']}")
print(f"Elapsed time: {elapsed_time:.2f} seconds")

# -*- coding: utf-8 -*-
は日本語を使用するためのおまじないです。

試した画像。

実行結果

画像認識の結果、猫であることは正しく認識していて、猫の毛色や目の色、撮影場所などをそれっぽく認識していました。

Response:

### 画像の詳細:

*   この画像は、上から見た白い猫の顔が写っている。
*   彼女は頭を上に向けているので、彼女の目が下に映ります。
*   彼女の毛色は、白い毛と淡い黄色の毛が混ざったようなものです。
*   彼女の目の色は緑ですが、彼女の瞳孔は薄く見え、金色もしくは茶色に見えるように見えます。
*   彼女の耳は左右に開いており、彼らは白い毛で覆われています。

### 画像を撮影した場所:

*   この画像が撮影されたのは室内です。壁や床には、薄く灰色の布のようなものが張られています。
*   その部屋の色彩は、灰色と茶色に染められているように見えます。

この猫のような表情の猫を撮影することは、写真家にとって大変なことかもしれません。彼女は自分の頭を上に向けて、視線を下に向けているため、彼女の目が画像の中で一番大きく見えるようになります。
しかし、猫の顔が写っていることで、この画像は好ましい印象を与えます。これらの特徴により、この写真は「美しさ」や「可愛さ」を伝えています。
Elapsed time: 350.21 seconds

まとめ

Intel N100 では、約13分という長い時間がかかりましたが、画像の内容をそれっぽく説明できていました。猫の顔や毛色、撮影場所など、画像から多くの情報を抽出しており、画像認識能力はある程度実用的なのではないかと印象です

時間が待てる方は、IntelN100でもいいですが、高性能PCで使う方がより良い結果が得られると思います。

今回使用したPCはこちらです。
※2024年11月現在で、Amazonであれば5500円クーポンを使って、23000円ほどで購入可能です。

こちらのPCの紹介はこちらでしていますので、参考にしてください。

この記事が、あなたの参考になれば幸いです。

にいやん

出身 : 関西 居住区 : 関西 職業 : 組み込み機器エンジニア (エンジニア歴13年) 年齢 : 38歳(2022年11月現在) 最近 業務の効率化で噂もありPython言語に興味を持ち勉強しています。 そこで学んだことを記事にして皆さんとシェアさせていただければと思いブログをはじめました!! 興味ある記事があれば皆さん見ていってください!! にほんブログ村