--- llama_cpp_install_dir: /opt/llama_cpp llama_cpp_data_dir: "{{ llama_cpp_install_dir }}/data" llama_cpp_image: ghcr.io/ggml-org/llama.cpp llama_cpp_image_tag: server-cuda llama_cpp_container_labels: [] llama_cpp_container_env: LLAMA_CACHE: "/hf_cache" # TODO: Check how llama persists data llama_cpp_model: unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL llama_cpp_args: - -hf - "{{ llama_cpp_model }}" - --port - "8090" - --host - "0.0.0.0" - --ctx-size - "16384" - --temp - "0.6" - --top-p - "0.95" - --top-k - "20" - --min-p - "0.00"