llama-cliはLLM(大規模言語モデル)をローカルで手軽に実行できるコマンドラインツールです。本記事では、llama-cliの主要オプションを徹底解説します。用途や環境に応じて最適な設定ができるよう、各オプションの意味と活用例をまとめました。
llama.cppは、Meta(旧Facebook)社が開発した大規模言語モデル(LLM)であるLlamaやLlama2の重みファイルを、C/C++で効率的に動作させるための軽量な推論エンジンです。
llama.cppのインストール方法はこちらを参照
オプション | 説明 | デフォルト値/備考 |
---|---|---|
-m, –model [PATH] | モデルファイル(GGUF形式など)のパス | 必須 |
-p, –prompt [TEXT] | モデルに入力するプロンプト | 必須 |
-t, –threads [N] | 生成処理に使用するCPUスレッド数 | -1(自動判定) |
-tb, –threads-batch [N] | バッチ処理やプロンプト処理に使用するスレッド数 | –threadsと同じ |
-n-gpu-layers [N] | GPUにオフロードするレイヤー数 | 0(CPUのみ) |
–ctx-size [N] | コンテキストサイズ(トークン数) | モデル依存 |
–temp [N] | 生成の多様性(0:確定的~1:多様) | 0.8など |
–top-k [N] | 次のトークン選択時に上位N件のみ考慮 | 40など |
–top-p [N] | 次のトークン選択時に累積確率がNを超えるトークンのみ考慮 | 0.9など |
–repeat-penalty [N] | 繰り返しのペナルティ(高いほど繰り返しを抑制) | 1.1など |
-n [N] | 生成するトークン数の上限 | -1(制限なし) |
-b [N] | バッチサイズ(一度に処理するトークン数) | モデル依存 |
–verbose-prompt | 生成前に詳細なプロンプト情報を出力 | false |
-C, –cpu-mask [MASK] | CPUアフィニティマスク(16進数) | 空 |
-Cr, –cpu-range [lo-hi] | 使用するCPUコアの範囲 | 空 |
–cpu-strict [0|1] | 厳密なCPU配置 | 0 |
–prio [N] | プロセス/スレッド優先度(0:通常,1:中,2:高,3:リアルタイム) | 0 |
-i, –interactive | 対話モードで実行 | false |
-if, –interactive-first | 対話モードで起動し、すぐに入力を待つ | false |
-mli, –multiline-input | 複数行の入力を許可 | false |
-r, –reverse-prompt [PROMPT] | 指定したプロンプトが出現したら生成を停止 | 空 |
–prompt-cache [FNAME] | プロンプト状態をキャッシュするファイル名 | 空 |
–prompt-cache-all | ユーザー入力と生成結果もキャッシュに保存 | false |
–prompt-cache-ro | キャッシュを読み取り専用で使用 | false |
–color | 対話モードで色付け表示を有効化 | false |
-h, –help | ヘルプ表示 | – |
–version | バージョン情報表示 | – |
./llama-cli -m models/Meta-Llama-3-8B.gguf \
-t 8 --ctx-size 2048 \
-n-gpu-layers 99 \
--temp 0.7 --top-k 40 --top-p 0.9 \
--repeat-penalty 1.1 \
-i --color
この例では、8スレッド・2048トークンのコンテキスト・GPUレイヤー99でモデルをロードし、多様性・繰り返し抑制を調整して対話モードで起動しています。
llama-cliは多彩なオプションで動作を細かくカスタマイズできます。表を参考に、用途や環境に合わせて最適な設定を実現してください。