【1ビットLLM】Bonsai 8BをIntel N100で動かす!llama.cppビルドから実行までの完全ガイド

この記事は約6分で読めます。

AIの常識を覆す「Bonsai 8B」の衝撃

ついに「メモリ1GB時代」の到来です。PrismMLから登場したBonsai 8Bは、80億パラメータという知能をわずか1.15GBのサイズに凝縮した1ビットLLM(1-bit LLM)です。

通常の8Bモデル(FP16)なら16GB近いVRAMが必要ですが、このモデルなら型落ちのPCや低電力なミニPCでも驚くほど軽快に動作します。今回はこのモデルをWindowsで動かしますが、本家のllama.cppでは正しく動作しません。

専用リポジトリのビルドから、Intel N100環境での最適化設定まで詳しく解説します。

1. llama.cppのビルド(Bonsai専用版)

まず、ビルドの基本手順は以前紹介したこちらの記事をベースにします。

▼【関連記事】Windowsでllama.cppをビルドする方法 https://niyanmemo.com/5790/

Bonsai 8B専用の変更点

上記の記事では本家のリポジトリ(ggml-org/llama.cpp)をクローンしていますが、今回はBonsai対応版をクローンします。

コマンドプロンプトで以下のコマンドを実行してください。

# 本家ではなく、PrismMLのBonsai対応版をクローン
git clone https://github.com/PrismML-Eng/llama.cpp.git
cd llama.cpp-bonsai

【注意】ビルドでエラーが出る場合

cmake 実行時に「CMAKE_C_COMPILER not set」などのエラーが出る場合は、パスが通っていない可能性があります。必ず**「Developer PowerShell for VS 2022」**からビルドを行ってください。

その後のビルド手順(CMakeやVisual Studioでのビルド)は、こちらの記事(5790)と全く同じでOKです。

2. モデルのダウンロードと配置

次に、Bonsai 8Bのモデル本体(GGUF形式)を入手します。

ダウンロードしたファイルは、ビルドして生成された llama-cli.exe(※旧称 main.exe)と同じ階層にある models フォルダに入れておきましょう。

3. 推論実行コマンドとN100最適化

準備ができたら、いよいよ実行です。最新版のllama.cppでは実行ファイル名が llama-cli.exe に変更されている点に注意してください。

Intel N100環境での最適コマンド

私の環境(Intel N100搭載ミニPC)では、以下の設定が最も効率的に動作しました。

.\llama-cli.exe -m models/Bonsai-8B-v1.0-Q1_0.gguf -n 512 -t 4 --mlock

Gemini の回答

にいやんさんの既存の構成を活かしつつ、Intel N100での実機検証データと、ハマりやすいポイント(ビルドエラーや実行ファイル名)の対策を盛り込んだ「決定版」の全文を作成しました。

そのままブログにペーストして微調整できる構成です。

【1ビットLLM】Bonsai 8BをIntel N100で動かす!llama.cppビルドから実行までの完全ガイド

はじめに:AIの常識を覆す「Bonsai 8B」の衝撃

ついに「メモリ1GB時代」の到来です。PrismMLから登場したBonsai 8Bは、80億パラメータという知能をわずか1.15GBのサイズに凝縮した1ビットLLM(1-bit LLM)です。

通常の8Bモデル(FP16)なら16GB近いVRAMが必要ですが、このモデルなら型落ちのPCや低電力なミニPCでも驚くほど軽快に動作します。今回はこのモデルをWindowsで動かしますが、本家のllama.cppでは正しく動作しません。

専用リポジトリのビルドから、Intel N100環境での最適化設定まで詳しく解説します。

1. llama.cppのビルド(Bonsai専用版)

ビルドの基本手順は、以前紹介したこちらの記事をベースにします。まずは環境を整えておきましょう。

▼【関連記事】Windowsでllama.cppをビルドする方法 https://niyanmemo.com/5790/

Bonsai 8B専用の変更点

上記の記事では本家のリポジトリ(ggml-org/llama.cpp)をクローンしていますが、Bonsai 8Bを動かすには1ビット演算に対応した専用版をクローンする必要があります。

コマンドプロンプト(またはGit Bash)で以下のコマンドを実行してください。

# 本家ではなく、PrismMLのBonsai対応版をクローン
git clone https://github.com/PrismML-Eng/llama.cpp.git
cd llama.cpp

【注意1】ビルドでエラーが出る場合

cmake 実行時に「CMAKE_C_COMPILER not set」などのエラーが出る場合は、パスが通っていない可能性があります。必ず「Developer PowerShell for VS 2022」からビルドを行ってください。

その後のビルド手順(CMakeやVisual Studioでのビルド)は、こちらの記事(5790)と全く同じでOKです。

注意2 起動失敗

実行して、lldがないよってエラーとなって起動に失敗する場合は以下をためしてみてください。

cmake -B build  -DLLAMA_CURL=OFF

↓ 以下に変更して再ビルド

cmake -B build -DBUILD_SHARED_LIBS=OFF -DLLAMA_CURL=OFF

2. モデルのダウンロードと配置

次に、Bonsai 8Bのモデル本体(GGUF形式)を入手します。

ダウンロードしたファイルは、ビルドして生成された llama-cli.exe(※旧称 main.exe)と同じ階層に models フォルダを作成して入れておきましょう

3. Intel N100での実行とエラー対策

ここが最大の難所です。N100環境では、物理メモリに空きがあっても「連続したメモリ領域の確保」に失敗し、failed to allocate buffer というエラーが出ることがあります。

成功したコマンド(N100最適化版)

私の環境(Intel N100 / RAM 16GB / Windows 11)で、無事に起動を確認できた設定がこちらです。

.\llama-cli.exe -m models/Bonsai-8B.gguf -n 512 -t 4 -c 512 -b 64

パラメータの解説

  • -t 4: N100の4コア4スレッドに合わせて指定。
  • -c 512: 文脈サイズ(KVキャッシュ)を絞り、メモリ消費を大幅に抑制。
  • -b 64: 一度に計算する量(バッチサイズ)を小さくし、計算用の一時バッファを削減。これがN100で起動させるための「最後の鍵」でした。

4. 実際に動かしてみた感想

起動には成功しましたが、私の環境(Intel N100)では、CPUが100%に張り付き、応答が返ってくるまでかなりの時間を要しました。

1ビットLLMはメモリ消費は劇的に少ないものの、CPUでの推論には「1ビットを計算用に展開する処理」が発生します。AVX2までのサポートであるN100では、この処理がボトルネックになっている可能性があります。

「動く」ことと「実用的な速度で動く」ことの差を痛感。次はスレッド数の調整や、コンテキストのさらなる削減を試してみる必要がありそうです。

まとめ:にいやんブログ的チェックポイント

Bonsai 8Bを動かすための重要ポイントをまとめます。

  1. リポジトリは PrismML-Eng/llama.cpp を使う
  2. ビルド手順は過去記事(5790)を参照(Developer PowerShell推奨)
  3. 1.15GBのメモリで最新AIが動く感動を味わう!(動けば。。。)

1ビットLLMは、これからスマホやIoT機器でのAI活用を劇的に変える技術です。リソースの極限利用……。私たち組み込みエンジニアの視点で見ても、非常にワクワクするトピックですね!

コメント

タイトルとURLをコピーしました