28 lines
535 B
YAML
28 lines
535 B
YAML
---
|
|
llama_cpp_install_dir: /opt/llama_cpp
|
|
llama_cpp_data_dir: "{{ llama_cpp_install_dir }}/data"
|
|
llama_cpp_image: ghcr.io/ggml-org/llama.cpp
|
|
llama_cpp_image_tag: server-cuda
|
|
llama_cpp_container_labels: []
|
|
llama_cpp_container_env:
|
|
LLAMA_CACHE: "/hf_cache"
|
|
# TODO: Check how llama persists data
|
|
llama_cpp_model: unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL
|
|
llama_cpp_args:
|
|
- -hf
|
|
- "{{ llama_cpp_model }}"
|
|
- --port
|
|
- "8090"
|
|
- --host
|
|
- "0.0.0.0"
|
|
- --ctx-size
|
|
- "16384"
|
|
- --temp
|
|
- "0.6"
|
|
- --top-p
|
|
- "0.95"
|
|
- --top-k
|
|
- "20"
|
|
- --min-p
|
|
- "0.00"
|