AIの常識を覆す「Bonsai 8B」の衝撃
ついに「メモリ1GB時代」の到来です。PrismMLから登場したBonsai 8Bは、80億パラメータという知能をわずか1.15GBのサイズに凝縮した1ビットLLM(1-bit LLM)です。
通常の8Bモデル(FP16)なら16GB近いVRAMが必要ですが、このモデルなら型落ちのPCや低電力なミニPCでも驚くほど軽快に動作します。今回はこのモデルをWindowsで動かしますが、本家のllama.cppでは正しく動作しません。
専用リポジトリのビルドから、Intel N100環境での最適化設定まで詳しく解説します。
1. llama.cppのビルド(Bonsai専用版)
まず、ビルドの基本手順は以前紹介したこちらの記事をベースにします。
▼【関連記事】Windowsでllama.cppをビルドする方法 https://niyanmemo.com/5790/
Bonsai 8B専用の変更点
上記の記事では本家のリポジトリ(ggml-org/llama.cpp)をクローンしていますが、今回はBonsai対応版をクローンします。
コマンドプロンプトで以下のコマンドを実行してください。
# 本家ではなく、PrismMLのBonsai対応版をクローン
git clone https://github.com/PrismML-Eng/llama.cpp.git
cd llama.cpp-bonsai【注意】ビルドでエラーが出る場合
cmake 実行時に「CMAKE_C_COMPILER not set」などのエラーが出る場合は、パスが通っていない可能性があります。必ず**「Developer PowerShell for VS 2022」**からビルドを行ってください。
その後のビルド手順(CMakeやVisual Studioでのビルド)は、こちらの記事(5790)と全く同じでOKです。
2. モデルのダウンロードと配置
次に、Bonsai 8Bのモデル本体(GGUF形式)を入手します。
- 配布先: Hugging Face (PrismML/Bonsai-8B-gguf)
- ファイル名:
Bonsai-8B-v1.0-Q1_0.gguf
ダウンロードしたファイルは、ビルドして生成された llama-cli.exe(※旧称 main.exe)と同じ階層にある models フォルダに入れておきましょう。
3. 推論実行コマンドとN100最適化
準備ができたら、いよいよ実行です。最新版のllama.cppでは実行ファイル名が llama-cli.exe に変更されている点に注意してください。
Intel N100環境での最適コマンド
私の環境(Intel N100搭載ミニPC)では、以下の設定が最も効率的に動作しました。
.\llama-cli.exe -m models/Bonsai-8B-v1.0-Q1_0.gguf -n 512 -t 4 --mlockGemini の回答
にいやんさんの既存の構成を活かしつつ、Intel N100での実機検証データと、ハマりやすいポイント(ビルドエラーや実行ファイル名)の対策を盛り込んだ「決定版」の全文を作成しました。
そのままブログにペーストして微調整できる構成です。
【1ビットLLM】Bonsai 8BをIntel N100で動かす!llama.cppビルドから実行までの完全ガイド
はじめに:AIの常識を覆す「Bonsai 8B」の衝撃
ついに「メモリ1GB時代」の到来です。PrismMLから登場したBonsai 8Bは、80億パラメータという知能をわずか1.15GBのサイズに凝縮した1ビットLLM(1-bit LLM)です。
通常の8Bモデル(FP16)なら16GB近いVRAMが必要ですが、このモデルなら型落ちのPCや低電力なミニPCでも驚くほど軽快に動作します。今回はこのモデルをWindowsで動かしますが、本家のllama.cppでは正しく動作しません。
専用リポジトリのビルドから、Intel N100環境での最適化設定まで詳しく解説します。
1. llama.cppのビルド(Bonsai専用版)
ビルドの基本手順は、以前紹介したこちらの記事をベースにします。まずは環境を整えておきましょう。
▼【関連記事】Windowsでllama.cppをビルドする方法 https://niyanmemo.com/5790/
Bonsai 8B専用の変更点
上記の記事では本家のリポジトリ(ggml-org/llama.cpp)をクローンしていますが、Bonsai 8Bを動かすには1ビット演算に対応した専用版をクローンする必要があります。
コマンドプロンプト(またはGit Bash)で以下のコマンドを実行してください。
# 本家ではなく、PrismMLのBonsai対応版をクローン
git clone https://github.com/PrismML-Eng/llama.cpp.git
cd llama.cpp【注意1】ビルドでエラーが出る場合
cmake 実行時に「CMAKE_C_COMPILER not set」などのエラーが出る場合は、パスが通っていない可能性があります。必ず「Developer PowerShell for VS 2022」からビルドを行ってください。
その後のビルド手順(CMakeやVisual Studioでのビルド)は、こちらの記事(5790)と全く同じでOKです。
注意2 起動失敗
実行して、lldがないよってエラーとなって起動に失敗する場合は以下をためしてみてください。
cmake -B build -DLLAMA_CURL=OFF↓ 以下に変更して再ビルド
cmake -B build -DBUILD_SHARED_LIBS=OFF -DLLAMA_CURL=OFF2. モデルのダウンロードと配置
次に、Bonsai 8Bのモデル本体(GGUF形式)を入手します。
- 配布先: Hugging Face (PrismML/Bonsai-8B-gguf)
- ファイル名:
Bonsai-8B.gguf
ダウンロードしたファイルは、ビルドして生成された llama-cli.exe(※旧称 main.exe)と同じ階層に models フォルダを作成して入れておきましょう
3. Intel N100での実行とエラー対策
ここが最大の難所です。N100環境では、物理メモリに空きがあっても「連続したメモリ領域の確保」に失敗し、failed to allocate buffer というエラーが出ることがあります。
成功したコマンド(N100最適化版)
私の環境(Intel N100 / RAM 16GB / Windows 11)で、無事に起動を確認できた設定がこちらです。
.\llama-cli.exe -m models/Bonsai-8B.gguf -n 512 -t 4 -c 512 -b 64パラメータの解説
-t 4: N100の4コア4スレッドに合わせて指定。-c 512: 文脈サイズ(KVキャッシュ)を絞り、メモリ消費を大幅に抑制。-b 64: 一度に計算する量(バッチサイズ)を小さくし、計算用の一時バッファを削減。これがN100で起動させるための「最後の鍵」でした。
4. 実際に動かしてみた感想
起動には成功しましたが、私の環境(Intel N100)では、CPUが100%に張り付き、応答が返ってくるまでかなりの時間を要しました。
1ビットLLMはメモリ消費は劇的に少ないものの、CPUでの推論には「1ビットを計算用に展開する処理」が発生します。AVX2までのサポートであるN100では、この処理がボトルネックになっている可能性があります。
「動く」ことと「実用的な速度で動く」ことの差を痛感。次はスレッド数の調整や、コンテキストのさらなる削減を試してみる必要がありそうです。
まとめ:にいやんブログ的チェックポイント
Bonsai 8Bを動かすための重要ポイントをまとめます。
- リポジトリは
PrismML-Eng/llama.cppを使う - ビルド手順は過去記事(5790)を参照(Developer PowerShell推奨)
- 1.15GBのメモリで最新AIが動く感動を味わう!(動けば。。。)
1ビットLLMは、これからスマホやIoT機器でのAI活用を劇的に変える技術です。リソースの極限利用……。私たち組み込みエンジニアの視点で見ても、非常にワクワクするトピックですね!

コメント