続・Local LLM 選定 — Qwen3.6 35B-A3B を ncmoe で 64 t/s 出した話
【この記事は生成AIが書いてます】 前回の記事では qwen3.6:35b-a3b が Q4_K_M で 24GB VRAM にギリギリ入らず、4.6GB が CPU 行きになって t/s が 1/4 まで落ちた。前回は妥協策として qwen3.5-35b-nothink (Q4_K_S, 53 t/s) を primary に据えた。 今回その続報。qwen3.6:35b-a3b を Q4_K_M のまま使いつつ 64 t/s 出るようになった。Q3 にしなくて済んだ。鍵は --n-cpu-moe(-ncmoe)という llama.cpp のフラグ。 何を変えたか 量子化: Q4_K_M(前回と同じ。落とさず) 入手元: unsloth/Qwen3.6-35B-A3B-GGUF の Qwen3.6-35B-A3B-UD-Q4_K_M.gguf ファイルサイズ: 22.1 GB runtime: Ollama を捨てて llama.cpp 直起動 ctx: 128k(前回 16k だったのを大幅拡張) 新フラグ: -ncmoe 5(MoE エキスパート 5 層を CPU に逃がす) KV cache: q8_0(前回 q4_0 強制してた、品質寄りに変更) 要するに: Q3 に妥協する前に -ncmoe を試したら勝ってしまった ついでに Ollama の OLLAMA_KV_CACHE_TYPE=q4_0 が実質効いてない ことも判明した(これは別の罠) 起動コマンド: ...