Categories: AI技術

llama-cliのオプション徹底解説!使いこなしに役立つ全主要パラメータ

llama-cliはLLM(大規模言語モデル)をローカルで手軽に実行できるコマンドラインツールです。本記事では、llama-cliの主要オプションを徹底解説します。用途や環境に応じて最適な設定ができるよう、各オプションの意味と活用例をまとめました。

llama.cppとは

llama.cppは、Meta(旧Facebook)社が開発した大規模言語モデル(LLM)であるLlamaやLlama2の重みファイルを、C/C++で効率的に動作させるための軽量な推論エンジンです。

llama.cppのインストール方法はこちらを参照


主要オプション一覧表

オプション説明デフォルト値/備考
-m, –model [PATH]モデルファイル(GGUF形式など)のパス必須
-p, –prompt [TEXT]モデルに入力するプロンプト必須
-t, –threads [N]生成処理に使用するCPUスレッド数-1(自動判定)
-tb, –threads-batch [N]バッチ処理やプロンプト処理に使用するスレッド数–threadsと同じ
-n-gpu-layers [N]GPUにオフロードするレイヤー数0(CPUのみ)
–ctx-size [N]コンテキストサイズ(トークン数)モデル依存
–temp [N]生成の多様性(0:確定的~1:多様)0.8など
–top-k [N]次のトークン選択時に上位N件のみ考慮40など
–top-p [N]次のトークン選択時に累積確率がNを超えるトークンのみ考慮0.9など
–repeat-penalty [N]繰り返しのペナルティ(高いほど繰り返しを抑制)1.1など
-n [N]生成するトークン数の上限-1(制限なし)
-b [N]バッチサイズ(一度に処理するトークン数)モデル依存
–verbose-prompt生成前に詳細なプロンプト情報を出力false
-C, –cpu-mask [MASK]CPUアフィニティマスク(16進数)
-Cr, –cpu-range [lo-hi]使用するCPUコアの範囲
–cpu-strict [0|1]厳密なCPU配置0
–prio [N]プロセス/スレッド優先度(0:通常,1:中,2:高,3:リアルタイム)0
-i, –interactive対話モードで実行false
-if, –interactive-first対話モードで起動し、すぐに入力を待つfalse
-mli, –multiline-input複数行の入力を許可false
-r, –reverse-prompt [PROMPT]指定したプロンプトが出現したら生成を停止
–prompt-cache [FNAME]プロンプト状態をキャッシュするファイル名
–prompt-cache-allユーザー入力と生成結果もキャッシュに保存false
–prompt-cache-roキャッシュを読み取り専用で使用false
–color対話モードで色付け表示を有効化false
-h, –helpヘルプ表示
–versionバージョン情報表示

オプション活用例

./llama-cli -m models/Meta-Llama-3-8B.gguf \
  -t 8 --ctx-size 2048 \
  -n-gpu-layers 99 \
  --temp 0.7 --top-k 40 --top-p 0.9 \
  --repeat-penalty 1.1 \
  -i --color

この例では、8スレッド・2048トークンのコンテキスト・GPUレイヤー99でモデルをロードし、多様性・繰り返し抑制を調整して対話モードで起動しています。


まとめ

llama-cliは多彩なオプションで動作を細かくカスタマイズできます。表を参考に、用途や環境に合わせて最適な設定を実現してください。

にいやん

出身 : 関西 居住区 : 関西 職業 : 組み込み機器エンジニア (エンジニア歴13年) 年齢 : 38歳(2022年11月現在) 最近 業務の効率化で噂もありPython言語に興味を持ち勉強しています。 そこで学んだことを記事にして皆さんとシェアさせていただければと思いブログをはじめました!! 興味ある記事があれば皆さん見ていってください!! にほんブログ村