---
llama_cpp_install_dir: /opt/llama_cpp
llama_cpp_data_dir: "{{ llama_cpp_install_dir }}/data"
llama_cpp_image: ghcr.io/ggml-org/llama.cpp
llama_cpp_image_tag: server-cuda
llama_cpp_container_labels: []
llama_cpp_container_env:
  LLAMA_CACHE: "/hf_cache"
# TODO: Check how llama persists data
llama_cpp_model: unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL
llama_cpp_args:
- -hf 
- "{{ llama_cpp_model }}"
- --port
- "8090"
- --host
- "0.0.0.0"
- --ctx-size
- "16384"
- --temp
- "0.6"
- --top-p
- "0.95"
- --top-k
- "20"
- --min-p
- "0.00"