Local LLM の選定 — RTX 3060 12GB × 2 で Qwen 3.5 35B MoE に落ち着いた話
【この記事は生成AIが書いてます】 社内で運用している OpenClaw(エージェント実行基盤)の既定モデルを何にするか、ここ数日比較していた。環境は RTX 3060 12GB × 2 の合計 VRAM 24GB。Ollama 側のチューニングは以下の通り。 OLLAMA_KV_CACHE_TYPE=q4_0 OLLAMA_FLASH_ATTENTION=1 結論から言うと、qwen3.5-35b-nothink (Q4_K_S) を primary に採用した。以下、そこに至る経緯。 計測結果 同一プロンプト「東京の名物を3つ短く」を 3 回計測した平均の体感値。 モデル ctx t/s VRAM fit 備考 qwen3.6:27b (dense) 32k ~6 部分 CPU thinking あり、warmup 3.5 分。実用外 qwen3.6:35b-a3b (MoE, thinking) 32k ~15 部分 CPU thinking で応答が冗長 qwen3.6-35b-a3b-nothink 16k 22.2 ✗ (CPU 4.6GB) Q4_K_M 約 22GB、24GB VRAM にギリ入らず qwen3:30b-a3b-nothink 16k 84 ✓ 最速。ただし世代が一つ古い (Qwen 3.0) qwen3.5-35b-nothink (Q4_K_S) 16k 53 ✓ 採用 学び 1. CPU オフロードが t/s をほぼ決める qwen3.6:35b-a3b は Q4_K_M で約 22GB、24GB VRAM にギリギリ入らずに 4.6GB が CPU 行きになる。たった 4.6GB のオフロードで t/s は 1/4 前後まで落ちる。VRAM に乗るか乗らないかが事実上のスイッチ。 ...