llama : accept a list of devices to use to offload a model (#10497)

* llama : accept a list of devices to use to offload a model * accept `--dev none` to completely disable offloading * fix dev list with dl backends * rename env parameter to LLAMA_ARG_DEVICE for consistency
2024-11-25 19:30:06 +01:00 · 2024-11-25 19:30:06 +01:00 · 10bce0450f
commit 10bce0450f
parent 1f922254f0
9 changed files with 104 additions and 27 deletions
--- a/examples/server/server.cpp
+++ b/examples/server/server.cpp
@ -692,6 +692,7 @@ struct server_context {

            auto params_dft = params_base;

+            params_dft.devices      = params_base.speculative.devices;
            params_dft.model        = params_base.speculative.model;
            params_dft.n_ctx        = params_base.speculative.n_ctx;
            params_dft.n_gpu_layers = params_base.speculative.n_gpu_layers;
--- a/examples/speculative-simple/speculative-simple.cpp
+++ b/examples/speculative-simple/speculative-simple.cpp
@ -46,6 +46,7 @@ int main(int argc, char ** argv) {
    ctx_tgt   = llama_init_tgt.context;

    // load the draft model
+    params.devices      = params.speculative.devices;
    params.model        = params.speculative.model;
    params.n_ctx        = params.speculative.n_ctx;
    params.n_batch      = params.speculative.n_ctx > 0 ? params.speculative.n_ctx : params.n_batch;
--- a/examples/speculative/speculative.cpp
+++ b/examples/speculative/speculative.cpp
@ -76,6 +76,7 @@ int main(int argc, char ** argv) {
    ctx_tgt = llama_init_tgt.context;

    // load the draft model
+    params.devices = params.speculative.devices;
    params.model = params.speculative.model;
    params.n_gpu_layers = params.speculative.n_gpu_layers;
    if (params.speculative.cpuparams.n_threads > 0) {