From ef4c0f572b2be309a5b3d0dd469f0c55f356e1ac Mon Sep 17 00:00:00 2001
From: mike dupont <mike.dupont@introspector.local>
Date: Wed, 22 Nov 2023 11:40:25 -0500
Subject: [PATCH] moving to using refl-cpp for llama as well

---
 examples/batched-bench/batched-bench.cpp     |   18 +-
 examples/batched/batched.cpp                 |    7 +-
 examples/llava/llava.cpp                     |   13 +-
 examples/save-load-state/save-load-state.cpp |    7 +-
 examples/server/server.cpp                   |   23 +-
 examples/simple/simple.cpp                   |    9 +-
 llama.cpp                                    | 3648 +++++++++---------
 llama.h                                      |   26 +-
 tests/test-c.c                               |    3 -
 9 files changed, 1914 insertions(+), 1840 deletions(-)
 delete mode 100644 tests/test-c.c

diff --git a/examples/batched-bench/batched-bench.cpp b/examples/batched-bench/batched-bench.cpp
index 533c55c17..b8758a5f4 100644
--- a/examples/batched-bench/batched-bench.cpp
+++ b/examples/batched-bench/batched-bench.cpp
@@ -122,14 +122,16 @@ int main(int argc, char ** argv) {
             const int32_t n_tokens = std::min(n_batch, (int32_t) (batch.n_tokens - i));
 
             llama_batch batch_view = {
-                n_tokens,
-                batch.token    + i,
-                nullptr,
-                batch.pos      + i,
-                batch.n_seq_id + i,
-                batch.seq_id   + i,
-                batch.logits   + i,
-                0, 0, 0, // unused
+	      .n_tokens=n_tokens,
+	      .token=batch.token    + i,
+	      .embd=nullptr,
+	      .pos=batch.pos      + i,
+              .n_seq_id=batch.n_seq_id + i,
+	      .seq_id=batch.seq_id   + i,
+	      .logits=batch.logits   + i,
+	      .all_pos_0=0,
+	      .all_pos_1=0,
+	      .all_seq_id=0, // unused
             };
 
             const int ret = llama_decode(ctx, batch_view);
diff --git a/examples/batched/batched.cpp b/examples/batched/batched.cpp
index 22a4265df..6ce3944f2 100644
--- a/examples/batched/batched.cpp
+++ b/examples/batched/batched.cpp
@@ -169,10 +169,13 @@ int main(int argc, char ** argv) {
             candidates.reserve(n_vocab);
 
             for (llama_token token_id = 0; token_id < n_vocab; token_id++) {
-                candidates.emplace_back(llama_token_data{ token_id, logits[token_id], 0.0f });
+                candidates.emplace_back(llama_token_data{
+		    .id=token_id,
+		    .logit=logits[token_id],
+		    .p=0.0f });
             }
 
-            llama_token_data_array candidates_p = { candidates.data(), candidates.size(), false };
+            llama_token_data_array candidates_p = { .data=candidates.data(), .size=candidates.size(), .sorted=false };
 
             const int   top_k = 40;
             const float top_p = 0.9f;
diff --git a/examples/llava/llava.cpp b/examples/llava/llava.cpp
index 0cae8c4b1..e9bf9ee09 100644
--- a/examples/llava/llava.cpp
+++ b/examples/llava/llava.cpp
@@ -75,7 +75,18 @@ bool llava_eval_image_embed(llama_context * ctx_llama, const struct llava_image_
         if (n_eval > n_batch) {
             n_eval = n_batch;
         }
-        llama_batch batch = {int32_t(n_eval), nullptr, (image_embed->embed+i*n_embd), nullptr, nullptr, nullptr, nullptr, *n_past, 1, 0, };
+        llama_batch batch = {
+	  .n_tokens=int32_t(n_eval),
+	  .token=nullptr,
+	  .embd=(image_embed->embed+i*n_embd),
+	  .pos=nullptr,
+	  .n_seq_id=nullptr,
+	  .seq_id=nullptr,
+	  .logits=nullptr,
+	  .all_pos_0=*n_past,
+	  .all_pos_1=1,
+	  .all_seq_id=0
+	};
         if (llama_decode(ctx_llama, batch)) {
             fprintf(stderr, "%s : failed to eval\n", __func__);
             return false;
diff --git a/examples/save-load-state/save-load-state.cpp b/examples/save-load-state/save-load-state.cpp
index 48d801110..fb5a1066a 100644
--- a/examples/save-load-state/save-load-state.cpp
+++ b/examples/save-load-state/save-load-state.cpp
@@ -67,9 +67,12 @@ int main(int argc, char ** argv) {
         std::vector<llama_token_data> candidates;
         candidates.reserve(n_vocab);
         for (llama_token token_id = 0; token_id < n_vocab; token_id++) {
-            candidates.emplace_back(llama_token_data{token_id, logits[token_id], 0.0f});
+            candidates.emplace_back(llama_token_data{
+		.id=token_id,
+		.logit=logits[token_id],
+		.p=0.0f});
         }
-        llama_token_data_array candidates_p = { candidates.data(), candidates.size(), false };
+        llama_token_data_array candidates_p(candidates.data(), candidates.size(), false );
         auto next_token = llama_sample_token(ctx, &candidates_p);
         auto next_token_str = llama_token_to_piece(ctx, next_token);
 
diff --git a/examples/server/server.cpp b/examples/server/server.cpp
index 1f2c55f2d..de8236ab4 100644
--- a/examples/server/server.cpp
+++ b/examples/server/server.cpp
@@ -1667,14 +1667,16 @@ struct llama_server_context
             const int32_t n_tokens = std::min(n_batch, (int32_t) (batch.n_tokens - i));
             llama_batch batch_view =
             {
-                n_tokens,
-                batch.token    + i,
-                nullptr,
-                batch.pos      + i,
-                batch.n_seq_id + i,
-                batch.seq_id   + i,
-                batch.logits   + i,
-                0, 0, 0, // unused
+                .n_tokens=n_tokens,
+                .token=batch.token    + i,
+                .embd=nullptr,
+                .pos=batch.pos      + i,
+                .n_seq_id=batch.n_seq_id + i,
+                .seq_id=batch.seq_id   + i,
+                .logits=batch.logits   + i,
+                .all_pos_0=.0,
+		.all_pos_1=0,
+		.all_seq_id=0, // unused
             };
 
             const int ret = llama_decode(ctx, batch_view);
@@ -1722,7 +1724,10 @@ struct llama_server_context
                     slot.t_prompt_processing = (slot.t_start_genereration - slot.t_start_process_prompt) / 1e3;
                 }
 
-                llama_token_data_array cur_p = { slot.ctx_sampling->cur.data(), slot.ctx_sampling->cur.size(), false };
+                llama_token_data_array cur_p = {
+		  .data=slot.ctx_sampling->cur.data(),
+		  .size=slot.ctx_sampling->cur.size(),
+		  .sorted=false };
                 result.tok = id;
 
                 const int32_t n_probs = slot.sparams.n_probs;
diff --git a/examples/simple/simple.cpp b/examples/simple/simple.cpp
index 374aef6f1..0e30f3256 100644
--- a/examples/simple/simple.cpp
+++ b/examples/simple/simple.cpp
@@ -124,10 +124,15 @@ int main(int argc, char ** argv) {
             candidates.reserve(n_vocab);
 
             for (llama_token token_id = 0; token_id < n_vocab; token_id++) {
-                candidates.emplace_back(llama_token_data{ token_id, logits[token_id], 0.0f });
+                candidates.emplace_back(llama_token_data{ .id=token_id,
+							  .logit=logits[token_id],
+							  .p=0.0f });
             }
 
-            llama_token_data_array candidates_p = { candidates.data(), candidates.size(), false };
+            llama_token_data_array candidates_p = {
+	      .data=candidates.data(),
+	      .size=candidates.size(),
+	      .sorted=false };
 
             // sample the most likely token
             const llama_token new_token_id = llama_sample_token_greedy(ctx, &candidates_p);
diff --git a/llama.cpp b/llama.cpp
index 6aaaef6c1..3f203fe33 100644
--- a/llama.cpp
+++ b/llama.cpp
@@ -29,20 +29,20 @@
 
 #ifdef __has_include
     #if __has_include(<unistd.h>)
-        #include <unistd.h>
-        #if defined(_POSIX_MAPPED_FILES)
-            #include <sys/mman.h>
-        #endif
-        #if defined(_POSIX_MEMLOCK_RANGE)
-            #include <sys/resource.h>
-        #endif
+	#include <unistd.h>
+	#if defined(_POSIX_MAPPED_FILES)
+	    #include <sys/mman.h>
+	#endif
+	#if defined(_POSIX_MEMLOCK_RANGE)
+	    #include <sys/resource.h>
+	#endif
     #endif
 #endif
 
 #if defined(_WIN32)
     #define WIN32_LEAN_AND_MEAN
     #ifndef NOMINMAX
-        #define NOMINMAX
+	#define NOMINMAX
     #endif
     #include <windows.h>
     #include <io.h>
@@ -118,13 +118,13 @@ static size_t utf8_len(char src) {
 static void replace_all(std::string & s, const std::string & search, const std::string & replace) {
     std::string result;
     for (size_t pos = 0; ; pos += search.length()) {
-        auto new_pos = s.find(search, pos);
-        if (new_pos == std::string::npos) {
-            result += s.substr(pos, s.size() - pos);
-            break;
-        }
-        result += s.substr(pos, new_pos - pos) + replace;
-        pos = new_pos;
+	auto new_pos = s.find(search, pos);
+	if (new_pos == std::string::npos) {
+	    result += s.substr(pos, s.size() - pos);
+	    break;
+	}
+	result += s.substr(pos, new_pos - pos) + replace;
+	pos = new_pos;
     }
     s = std::move(result);
 }
@@ -132,17 +132,17 @@ static void replace_all(std::string & s, const std::string & search, const std::
 static bool is_float_close(float a, float b, float abs_tol) {
     // Check for non-negative tolerance
     if (abs_tol < 0.0) {
-        throw std::invalid_argument("Tolerance must be non-negative");
+	throw std::invalid_argument("Tolerance must be non-negative");
     }
 
     // Exact equality check
     if (a == b) {
-        return true;
+	return true;
     }
 
     // Check for infinities
     if (std::isinf(a) || std::isinf(b)) {
-        return false;
+	return false;
     }
 
     // Regular comparison using the provided absolute tolerance
@@ -156,7 +156,7 @@ static bool is_float_close(float a, float b, float abs_tol) {
 static void zeros(std::ofstream & file, size_t n) {
     char zero = 0;
     for (size_t i = 0; i < n; ++i) {
-        file.write(&zero, 1);
+	file.write(&zero, 1);
     }
 }
 
@@ -317,7 +317,7 @@ struct LLM_KV {
     llm_arch arch;
 
     std::string operator()(llm_kv kv) const {
-        return ::format(LLM_KV_NAMES[kv].c_str(), LLM_ARCH_NAMES[arch].c_str());
+	return ::format(LLM_KV_NAMES[kv].c_str(), LLM_ARCH_NAMES[arch].c_str());
     }
 };
 
@@ -346,193 +346,193 @@ enum llm_tensor {
 
 static std::map<llm_arch, std::map<llm_tensor, std::string>> LLM_TENSOR_NAMES = {
     {
-        LLM_ARCH_LLAMA,
-        {
-            { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
-            { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
-            { LLM_TENSOR_OUTPUT,          "output" },
-            { LLM_TENSOR_ROPE_FREQS,      "rope_freqs" },
-            { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
-            { LLM_TENSOR_ATTN_Q,          "blk.%d.attn_q" },
-            { LLM_TENSOR_ATTN_K,          "blk.%d.attn_k" },
-            { LLM_TENSOR_ATTN_V,          "blk.%d.attn_v" },
-            { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
-            { LLM_TENSOR_ATTN_ROT_EMBD,   "blk.%d.attn_rot_embd" },
-            { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
-            { LLM_TENSOR_FFN_GATE,        "blk.%d.ffn_gate" },
-            { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
-            { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
-        },
+	LLM_ARCH_LLAMA,
+	{
+	    { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
+	    { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
+	    { LLM_TENSOR_OUTPUT,          "output" },
+	    { LLM_TENSOR_ROPE_FREQS,      "rope_freqs" },
+	    { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
+	    { LLM_TENSOR_ATTN_Q,          "blk.%d.attn_q" },
+	    { LLM_TENSOR_ATTN_K,          "blk.%d.attn_k" },
+	    { LLM_TENSOR_ATTN_V,          "blk.%d.attn_v" },
+	    { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
+	    { LLM_TENSOR_ATTN_ROT_EMBD,   "blk.%d.attn_rot_embd" },
+	    { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
+	    { LLM_TENSOR_FFN_GATE,        "blk.%d.ffn_gate" },
+	    { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
+	    { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
+	},
     },
     {
-        LLM_ARCH_BAICHUAN,
-        {
-            { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
-            { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
-            { LLM_TENSOR_OUTPUT,          "output" },
-            { LLM_TENSOR_ROPE_FREQS,      "rope_freqs" },
-            { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
-            { LLM_TENSOR_ATTN_Q,          "blk.%d.attn_q" },
-            { LLM_TENSOR_ATTN_K,          "blk.%d.attn_k" },
-            { LLM_TENSOR_ATTN_V,          "blk.%d.attn_v" },
-            { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
-            { LLM_TENSOR_ATTN_ROT_EMBD,   "blk.%d.attn_rot_embd" },
-            { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
-            { LLM_TENSOR_FFN_GATE,        "blk.%d.ffn_gate" },
-            { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
-            { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
-        },
+	LLM_ARCH_BAICHUAN,
+	{
+	    { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
+	    { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
+	    { LLM_TENSOR_OUTPUT,          "output" },
+	    { LLM_TENSOR_ROPE_FREQS,      "rope_freqs" },
+	    { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
+	    { LLM_TENSOR_ATTN_Q,          "blk.%d.attn_q" },
+	    { LLM_TENSOR_ATTN_K,          "blk.%d.attn_k" },
+	    { LLM_TENSOR_ATTN_V,          "blk.%d.attn_v" },
+	    { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
+	    { LLM_TENSOR_ATTN_ROT_EMBD,   "blk.%d.attn_rot_embd" },
+	    { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
+	    { LLM_TENSOR_FFN_GATE,        "blk.%d.ffn_gate" },
+	    { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
+	    { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
+	},
     },
     {
-        LLM_ARCH_FALCON,
-        {
-            { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
-            { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
-            { LLM_TENSOR_OUTPUT,          "output" },
-            { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
-            { LLM_TENSOR_ATTN_NORM_2,     "blk.%d.attn_norm_2" },
-            { LLM_TENSOR_ATTN_QKV,        "blk.%d.attn_qkv" },
-            { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
-            { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
-            { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
-        },
+	LLM_ARCH_FALCON,
+	{
+	    { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
+	    { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
+	    { LLM_TENSOR_OUTPUT,          "output" },
+	    { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
+	    { LLM_TENSOR_ATTN_NORM_2,     "blk.%d.attn_norm_2" },
+	    { LLM_TENSOR_ATTN_QKV,        "blk.%d.attn_qkv" },
+	    { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
+	    { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
+	    { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
+	},
     },
     {
-        LLM_ARCH_GPT2,
-        {
-            { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
-        },
+	LLM_ARCH_GPT2,
+	{
+	    { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
+	},
     },
     {
-        LLM_ARCH_GPTJ,
-        {
-            { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
-        },
+	LLM_ARCH_GPTJ,
+	{
+	    { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
+	},
     },
     {
-        LLM_ARCH_GPTNEOX,
-        {
-            { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
-            { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
-            { LLM_TENSOR_OUTPUT,          "output" },
-            { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
-            { LLM_TENSOR_ATTN_QKV,        "blk.%d.attn_qkv" },
-            { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
-            { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
-            { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
-            { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
-        },
+	LLM_ARCH_GPTNEOX,
+	{
+	    { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
+	    { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
+	    { LLM_TENSOR_OUTPUT,          "output" },
+	    { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
+	    { LLM_TENSOR_ATTN_QKV,        "blk.%d.attn_qkv" },
+	    { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
+	    { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
+	    { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
+	    { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
+	},
     },
     {
-        LLM_ARCH_PERSIMMON,
-        {
-            { LLM_TENSOR_TOKEN_EMBD,      "token_embd"},
-            { LLM_TENSOR_OUTPUT_NORM,     "output_norm"},
-            { LLM_TENSOR_OUTPUT,          "output"},
-            { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm"},
-            { LLM_TENSOR_ATTN_QKV,        "blk.%d.attn_qkv"},
-            { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output"},
-            { LLM_TENSOR_ATTN_Q_NORM,     "blk.%d.attn_q_norm"},
-            { LLM_TENSOR_ATTN_K_NORM,     "blk.%d.attn_k_norm"},
-            { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm"},
-            { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down"},
-            { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up"},
-            { LLM_TENSOR_ATTN_ROT_EMBD,   "blk.%d.attn_rot_embd"},
-        },
+	LLM_ARCH_PERSIMMON,
+	{
+	    { LLM_TENSOR_TOKEN_EMBD,      "token_embd"},
+	    { LLM_TENSOR_OUTPUT_NORM,     "output_norm"},
+	    { LLM_TENSOR_OUTPUT,          "output"},
+	    { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm"},
+	    { LLM_TENSOR_ATTN_QKV,        "blk.%d.attn_qkv"},
+	    { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output"},
+	    { LLM_TENSOR_ATTN_Q_NORM,     "blk.%d.attn_q_norm"},
+	    { LLM_TENSOR_ATTN_K_NORM,     "blk.%d.attn_k_norm"},
+	    { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm"},
+	    { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down"},
+	    { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up"},
+	    { LLM_TENSOR_ATTN_ROT_EMBD,   "blk.%d.attn_rot_embd"},
+	},
     },
     {
-        LLM_ARCH_MPT,
-        {
-            { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
-            { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
-            { LLM_TENSOR_OUTPUT,          "output" },
-            { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
-            { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
-            { LLM_TENSOR_ATTN_QKV,        "blk.%d.attn_qkv" },
-            { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
-            { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
-            { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
-        },
+	LLM_ARCH_MPT,
+	{
+	    { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
+	    { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
+	    { LLM_TENSOR_OUTPUT,          "output" },
+	    { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
+	    { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
+	    { LLM_TENSOR_ATTN_QKV,        "blk.%d.attn_qkv" },
+	    { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
+	    { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
+	    { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
+	},
     },
     {
-        LLM_ARCH_STARCODER,
-        {
-            { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
-            { LLM_TENSOR_POS_EMBD,        "position_embd" },
-            { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
-            { LLM_TENSOR_OUTPUT,          "output" },
-            { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
-            { LLM_TENSOR_ATTN_QKV,        "blk.%d.attn_qkv" },
-            { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
-            { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
-            { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
-            { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
-        },
+	LLM_ARCH_STARCODER,
+	{
+	    { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
+	    { LLM_TENSOR_POS_EMBD,        "position_embd" },
+	    { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
+	    { LLM_TENSOR_OUTPUT,          "output" },
+	    { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
+	    { LLM_TENSOR_ATTN_QKV,        "blk.%d.attn_qkv" },
+	    { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
+	    { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
+	    { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
+	    { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
+	},
     },
     {
-        LLM_ARCH_REFACT,
-        {
-            { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
-            { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
-            { LLM_TENSOR_OUTPUT,          "output" },
-            { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
-            { LLM_TENSOR_ATTN_Q,          "blk.%d.attn_q" },
-            { LLM_TENSOR_ATTN_K,          "blk.%d.attn_k" },
-            { LLM_TENSOR_ATTN_V,          "blk.%d.attn_v" },
-            { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
-            { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
-            { LLM_TENSOR_FFN_GATE,        "blk.%d.ffn_gate" },
-            { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
-            { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
-        },
+	LLM_ARCH_REFACT,
+	{
+	    { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
+	    { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
+	    { LLM_TENSOR_OUTPUT,          "output" },
+	    { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
+	    { LLM_TENSOR_ATTN_Q,          "blk.%d.attn_q" },
+	    { LLM_TENSOR_ATTN_K,          "blk.%d.attn_k" },
+	    { LLM_TENSOR_ATTN_V,          "blk.%d.attn_v" },
+	    { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
+	    { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
+	    { LLM_TENSOR_FFN_GATE,        "blk.%d.ffn_gate" },
+	    { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
+	    { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
+	},
     },
     {
-        LLM_ARCH_BLOOM,
-        {
-            { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
-            { LLM_TENSOR_TOKEN_EMBD_NORM, "token_embd_norm" },
-            { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
-            { LLM_TENSOR_OUTPUT,          "output" },
-            { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
-            { LLM_TENSOR_ATTN_QKV,        "blk.%d.attn_qkv" },
-            { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
-            { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
-            { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
-            { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
-        },
+	LLM_ARCH_BLOOM,
+	{
+	    { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
+	    { LLM_TENSOR_TOKEN_EMBD_NORM, "token_embd_norm" },
+	    { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
+	    { LLM_TENSOR_OUTPUT,          "output" },
+	    { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
+	    { LLM_TENSOR_ATTN_QKV,        "blk.%d.attn_qkv" },
+	    { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
+	    { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
+	    { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
+	    { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
+	},
     },
     {
-        LLM_ARCH_STABLELM,
-        {
-            { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
-            { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
-            { LLM_TENSOR_OUTPUT,          "output" },
-            { LLM_TENSOR_ROPE_FREQS,      "rope_freqs" },
-            { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
-            { LLM_TENSOR_ATTN_Q,          "blk.%d.attn_q" },
-            { LLM_TENSOR_ATTN_K,          "blk.%d.attn_k" },
-            { LLM_TENSOR_ATTN_V,          "blk.%d.attn_v" },
-            { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
-            { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
-            { LLM_TENSOR_FFN_GATE,        "blk.%d.ffn_gate" },
-            { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
-            { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
-        },
+	LLM_ARCH_STABLELM,
+	{
+	    { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
+	    { LLM_TENSOR_OUTPUT_NORM,     "output_norm" },
+	    { LLM_TENSOR_OUTPUT,          "output" },
+	    { LLM_TENSOR_ROPE_FREQS,      "rope_freqs" },
+	    { LLM_TENSOR_ATTN_NORM,       "blk.%d.attn_norm" },
+	    { LLM_TENSOR_ATTN_Q,          "blk.%d.attn_q" },
+	    { LLM_TENSOR_ATTN_K,          "blk.%d.attn_k" },
+	    { LLM_TENSOR_ATTN_V,          "blk.%d.attn_v" },
+	    { LLM_TENSOR_ATTN_OUT,        "blk.%d.attn_output" },
+	    { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
+	    { LLM_TENSOR_FFN_GATE,        "blk.%d.ffn_gate" },
+	    { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
+	    { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
+	},
     },
 
     {
-        LLM_ARCH_UNKNOWN,
-        {
-            { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
-        },
+	LLM_ARCH_UNKNOWN,
+	{
+	    { LLM_TENSOR_TOKEN_EMBD,      "token_embd" },
+	},
     },
 };
 
 static llm_arch llm_arch_from_string(const std::string & name) {
     for (const auto & kv : LLM_ARCH_NAMES) { // NOLINT
-        if (kv.second == name) {
-            return kv.first;
-        }
+	if (kv.second == name) {
+	    return kv.first;
+	}
     }
 
     return LLM_ARCH_UNKNOWN;
@@ -553,19 +553,19 @@ struct LLM_TN {
     llm_arch arch;
 
     std::string operator()(llm_tensor tensor) const {
-        return LLM_TENSOR_NAMES[arch].at(tensor);
+	return LLM_TENSOR_NAMES[arch].at(tensor);
     }
 
     std::string operator()(llm_tensor tensor, const std::string & suffix) const {
-        return LLM_TENSOR_NAMES[arch].at(tensor) + "." + suffix;
+	return LLM_TENSOR_NAMES[arch].at(tensor) + "." + suffix;
     }
 
     std::string operator()(llm_tensor tensor, int bid) const {
-        return ::format(LLM_TENSOR_NAMES[arch].at(tensor).c_str(), bid);
+	return ::format(LLM_TENSOR_NAMES[arch].at(tensor).c_str(), bid);
     }
 
     std::string operator()(llm_tensor tensor, const std::string & suffix, int bid) const {
-        return ::format(LLM_TENSOR_NAMES[arch].at(tensor).c_str(), bid) + "." + suffix;
+	return ::format(LLM_TENSOR_NAMES[arch].at(tensor).c_str(), bid) + "." + suffix;
     }
 };
 
@@ -578,13 +578,13 @@ do { \
     const std::string skey(key); \
     const int kid = gguf_find_key(ctx, skey.c_str()); \
     if (kid >= 0) { \
-        enum gguf_type ktype = gguf_get_kv_type(ctx, kid); \
-        if (ktype != (type)) { \
-            throw std::runtime_error(format("key %s has wrong type: %s", skey.c_str(), gguf_type_name(ktype))); \
-        } \
-        (dst) = func(ctx, kid); \
+	enum gguf_type ktype = gguf_get_kv_type(ctx, kid); \
+	if (ktype != (type)) { \
+	    throw std::runtime_error(format("key %s has wrong type: %s", skey.c_str(), gguf_type_name(ktype))); \
+	} \
+	(dst) = func(ctx, kid); \
     } else if (req) { \
-        throw std::runtime_error(format("key not found in model: %s", skey.c_str())); \
+	throw std::runtime_error(format("key not found in model: %s", skey.c_str())); \
     } \
 } while (0)
 
@@ -596,9 +596,9 @@ static std::map<int8_t, std::string> LLAMA_ROPE_SCALING_TYPES = {
 
 static int8_t llama_rope_scaling_type_from_string(const std::string & name) {
     for (const auto & kv : LLAMA_ROPE_SCALING_TYPES) {
-        if (kv.second == name) {
-            return kv.first;
-        }
+	if (kv.second == name) {
+	    return kv.first;
+	}
     }
 
     return LLAMA_ROPE_SCALING_UNSPECIFIED;
@@ -606,18 +606,18 @@ static int8_t llama_rope_scaling_type_from_string(const std::string & name) {
 
 static std::string gguf_data_to_str(enum gguf_type type, const void * data, int i) {
     switch (type) {
-        case GGUF_TYPE_UINT8:   return std::to_string(((const uint8_t  *)data)[i]);
-        case GGUF_TYPE_INT8:    return std::to_string(((const int8_t   *)data)[i]);
-        case GGUF_TYPE_UINT16:  return std::to_string(((const uint16_t *)data)[i]);
-        case GGUF_TYPE_INT16:   return std::to_string(((const int16_t  *)data)[i]);
-        case GGUF_TYPE_UINT32:  return std::to_string(((const uint32_t *)data)[i]);
-        case GGUF_TYPE_INT32:   return std::to_string(((const int32_t  *)data)[i]);
-        case GGUF_TYPE_UINT64:  return std::to_string(((const uint64_t *)data)[i]);
-        case GGUF_TYPE_INT64:   return std::to_string(((const int64_t  *)data)[i]);
-        case GGUF_TYPE_FLOAT32: return std::to_string(((const float    *)data)[i]);
-        case GGUF_TYPE_FLOAT64: return std::to_string(((const double   *)data)[i]);
-        case GGUF_TYPE_BOOL:    return ((const bool *)data)[i] ? "true" : "false";
-        default:                return format("unknown type %d", type);
+	case GGUF_TYPE_UINT8:   return std::to_string(((const uint8_t  *)data)[i]);
+	case GGUF_TYPE_INT8:    return std::to_string(((const int8_t   *)data)[i]);
+	case GGUF_TYPE_UINT16:  return std::to_string(((const uint16_t *)data)[i]);
+	case GGUF_TYPE_INT16:   return std::to_string(((const int16_t  *)data)[i]);
+	case GGUF_TYPE_UINT32:  return std::to_string(((const uint32_t *)data)[i]);
+	case GGUF_TYPE_INT32:   return std::to_string(((const int32_t  *)data)[i]);
+	case GGUF_TYPE_UINT64:  return std::to_string(((const uint64_t *)data)[i]);
+	case GGUF_TYPE_INT64:   return std::to_string(((const int64_t  *)data)[i]);
+	case GGUF_TYPE_FLOAT32: return std::to_string(((const float    *)data)[i]);
+	case GGUF_TYPE_FLOAT64: return std::to_string(((const double   *)data)[i]);
+	case GGUF_TYPE_BOOL:    return ((const bool *)data)[i] ? "true" : "false";
+	default:                return format("unknown type %d", type);
     }
 }
 
@@ -625,36 +625,36 @@ static std::string gguf_kv_to_str(struct gguf_context * ctx_gguf, int i) {
     const enum gguf_type type = gguf_get_kv_type(ctx_gguf, i);
 
     switch (type) {
-        case GGUF_TYPE_STRING:
-            return gguf_get_val_str(ctx_gguf, i);
-        case GGUF_TYPE_ARRAY:
-            {
-                const enum gguf_type arr_type = gguf_get_arr_type(ctx_gguf, i);
-                int arr_n = gguf_get_arr_n(ctx_gguf, i);
-                const void * data = gguf_get_arr_data(ctx_gguf, i);
-                std::stringstream ss;
-                ss << "[";
-                for (int j = 0; j < arr_n; j++) {
-                    if (arr_type == GGUF_TYPE_STRING) {
-                        std::string val = gguf_get_arr_str(ctx_gguf, i, j);
-                        // escape quotes
-                        replace_all(val, "\\", "\\\\");
-                        replace_all(val, "\"", "\\\"");
-                        ss << '"' << val << '"';
-                    } else if (arr_type == GGUF_TYPE_ARRAY) {
-                        ss << "???";
-                    } else {
-                        ss << gguf_data_to_str(arr_type, data, j);
-                    }
-                    if (j < arr_n - 1) {
-                        ss << ", ";
-                    }
-                }
-                ss << "]";
-                return ss.str();
-            }
-        default:
-            return gguf_data_to_str(type, gguf_get_val_data(ctx_gguf, i), 0);
+	case GGUF_TYPE_STRING:
+	    return gguf_get_val_str(ctx_gguf, i);
+	case GGUF_TYPE_ARRAY:
+	    {
+		const enum gguf_type arr_type = gguf_get_arr_type(ctx_gguf, i);
+		int arr_n = gguf_get_arr_n(ctx_gguf, i);
+		const void * data = gguf_get_arr_data(ctx_gguf, i);
+		std::stringstream ss;
+		ss << "[";
+		for (int j = 0; j < arr_n; j++) {
+		    if (arr_type == GGUF_TYPE_STRING) {
+			std::string val = gguf_get_arr_str(ctx_gguf, i, j);
+			// escape quotes
+			replace_all(val, "\\", "\\\\");
+			replace_all(val, "\"", "\\\"");
+			ss << '"' << val << '"';
+		    } else if (arr_type == GGUF_TYPE_ARRAY) {
+			ss << "???";
+		    } else {
+			ss << gguf_data_to_str(arr_type, data, j);
+		    }
+		    if (j < arr_n - 1) {
+			ss << ", ";
+		    }
+		}
+		ss << "]";
+		return ss.str();
+	    }
+	default:
+	    return gguf_data_to_str(type, gguf_get_val_data(ctx_gguf, i), 0);
     }
 }
 
@@ -666,8 +666,8 @@ static void ggml_graph_compute_helper(std::vector<uint8_t> & buf, ggml_cgraph *
     struct ggml_cplan plan = ggml_graph_plan(graph, n_threads);
 
     if (plan.work_size > 0) {
-        buf.resize(plan.work_size);
-        plan.work_data = buf.data();
+	buf.resize(plan.work_size);
+	plan.work_data = buf.data();
     }
 
     ggml_graph_compute(graph, &plan);
@@ -680,9 +680,9 @@ static void ggml_graph_compute_helper(std::vector<uint8_t> & buf, ggml_cgraph *
 inline void * llama_host_malloc(size_t n) {
 #ifdef GGML_USE_CUBLAS
     if (ggml_cublas_loaded()) {
-        return ggml_cuda_host_malloc(n);
+	return ggml_cuda_host_malloc(n);
     } else {
-        return malloc(n);
+	return malloc(n);
     }
 #elif GGML_USE_METAL
     return ggml_metal_host_malloc(n);
@@ -696,9 +696,9 @@ inline void * llama_host_malloc(size_t n) {
 inline void llama_host_free(void * ptr) {
 #ifdef GGML_USE_CUBLAS
     if (ggml_cublas_loaded()) {
-        return ggml_cuda_host_free(ptr);
+	return ggml_cuda_host_free(ptr);
     } else {
-        return free(ptr);
+	return free(ptr);
     }
 #elif GGML_USE_METAL
     return ggml_metal_host_free(ptr);
@@ -713,9 +713,9 @@ inline void llama_host_free(void * ptr) {
 static std::string llama_format_win_err(DWORD err) {
     LPSTR buf;
     size_t size = FormatMessageA(FORMAT_MESSAGE_ALLOCATE_BUFFER | FORMAT_MESSAGE_FROM_SYSTEM | FORMAT_MESSAGE_IGNORE_INSERTS,
-                                 NULL, err, MAKELANGID(LANG_NEUTRAL, SUBLANG_DEFAULT), (LPSTR)&buf, 0, NULL);
+				 NULL, err, MAKELANGID(LANG_NEUTRAL, SUBLANG_DEFAULT), (LPSTR)&buf, 0, NULL);
     if (!size) {
-        return "FormatMessageA failed";
+	return "FormatMessageA failed";
     }
     std::string ret(buf, size);
     LocalFree(buf);
@@ -732,30 +732,30 @@ struct llama_buffer {
     bool fallback = false;
 
     void resize(size_t n) {
-        llama_host_free(data);
+	llama_host_free(data);
 
-        data = llama_host_malloc(n);
-        if (!data) {
-            fallback = true;
-            data = malloc(n);
-        } else {
-            fallback = false;
-        }
+	data = llama_host_malloc(n);
+	if (!data) {
+	    fallback = true;
+	    data = malloc(n);
+	} else {
+	    fallback = false;
+	}
 
-        GGML_ASSERT(data);
-        size = n;
+	GGML_ASSERT(data);
+	size = n;
     }
 
     ~llama_buffer() {
-        if (data) {
-            if (fallback) { // NOLINT
-                free(data);
-            } else {
-                llama_host_free(data);
-            }
-        }
+	if (data) {
+	    if (fallback) { // NOLINT
+		free(data);
+	    } else {
+		llama_host_free(data);
+	    }
+	}
 
-        data = NULL;
+	data = NULL;
     }
 };
 
@@ -765,73 +765,73 @@ struct llama_file {
     size_t size;
 
     llama_file(const char * fname, const char * mode) {
-        fp = std::fopen(fname, mode);
-        if (fp == NULL) {
-            throw std::runtime_error(format("failed to open %s: %s", fname, strerror(errno)));
-        }
-        seek(0, SEEK_END);
-        size = tell();
-        seek(0, SEEK_SET);
+	fp = std::fopen(fname, mode);
+	if (fp == NULL) {
+	    throw std::runtime_error(format("failed to open %s: %s", fname, strerror(errno)));
+	}
+	seek(0, SEEK_END);
+	size = tell();
+	seek(0, SEEK_SET);
     }
 
     size_t tell() const {
 #ifdef _WIN32
-        __int64 ret = _ftelli64(fp);
+	__int64 ret = _ftelli64(fp);
 #else
-        long ret = std::ftell(fp);
+	long ret = std::ftell(fp);
 #endif
-        GGML_ASSERT(ret != -1); // this really shouldn't fail
-        return (size_t) ret;
+	GGML_ASSERT(ret != -1); // this really shouldn't fail
+	return (size_t) ret;
     }
 
     void seek(size_t offset, int whence) const {
 #ifdef _WIN32
-        int ret = _fseeki64(fp, (__int64) offset, whence);
+	int ret = _fseeki64(fp, (__int64) offset, whence);
 #else
-        int ret = std::fseek(fp, (long) offset, whence);
+	int ret = std::fseek(fp, (long) offset, whence);
 #endif
-        GGML_ASSERT(ret == 0); // same
+	GGML_ASSERT(ret == 0); // same
     }
 
     void read_raw(void * ptr, size_t len) const {
-        if (len == 0) {
-            return;
-        }
-        errno = 0;
-        std::size_t ret = std::fread(ptr, len, 1, fp);
-        if (ferror(fp)) {
-            throw std::runtime_error(format("read error: %s", strerror(errno)));
-        }
-        if (ret != 1) {
-            throw std::runtime_error(std::string("unexpectedly reached end of file"));
-        }
+	if (len == 0) {
+	    return;
+	}
+	errno = 0;
+	std::size_t ret = std::fread(ptr, len, 1, fp);
+	if (ferror(fp)) {
+	    throw std::runtime_error(format("read error: %s", strerror(errno)));
+	}
+	if (ret != 1) {
+	    throw std::runtime_error(std::string("unexpectedly reached end of file"));
+	}
     }
 
     uint32_t read_u32() const {
-        uint32_t ret;
-        read_raw(&ret, sizeof(ret));
-        return ret;
+	uint32_t ret;
+	read_raw(&ret, sizeof(ret));
+	return ret;
     }
 
     void write_raw(const void * ptr, size_t len) const {
-        if (len == 0) {
-            return;
-        }
-        errno = 0;
-        size_t ret = std::fwrite(ptr, len, 1, fp);
-        if (ret != 1) {
-            throw std::runtime_error(format("write error: %s", strerror(errno)));
-        }
+	if (len == 0) {
+	    return;
+	}
+	errno = 0;
+	size_t ret = std::fwrite(ptr, len, 1, fp);
+	if (ret != 1) {
+	    throw std::runtime_error(format("write error: %s", strerror(errno)));
+	}
     }
 
     void write_u32(std::uint32_t val) const {
-        write_raw(&val, sizeof(val));
+	write_raw(&val, sizeof(val));
     }
 
     ~llama_file() {
-        if (fp) {
-            std::fclose(fp);
-        }
+	if (fp) {
+	    std::fclose(fp);
+	}
     }
 };
 
@@ -845,100 +845,100 @@ struct llama_mmap {
     static constexpr bool SUPPORTED = true;
 
     llama_mmap(struct llama_file * file, size_t prefetch = (size_t) -1 /* -1 = max value */, bool numa = false) {
-        size = file->size;
-        int fd = fileno(file->fp);
-        int flags = MAP_SHARED;
-        // prefetch/readahead impairs performance on NUMA systems
-        if (numa) { prefetch = 0; }
+	size = file->size;
+	int fd = fileno(file->fp);
+	int flags = MAP_SHARED;
+	// prefetch/readahead impairs performance on NUMA systems
+	if (numa) { prefetch = 0; }
 #ifdef __linux__
-        if (prefetch) { flags |= MAP_POPULATE; }
+	if (prefetch) { flags |= MAP_POPULATE; }
 #endif
-        addr = mmap(NULL, file->size, PROT_READ, flags, fd, 0);
-        if (addr == MAP_FAILED) {
-            throw std::runtime_error(format("mmap failed: %s", strerror(errno)));
-        }
+	addr = mmap(NULL, file->size, PROT_READ, flags, fd, 0);
+	if (addr == MAP_FAILED) {
+	    throw std::runtime_error(format("mmap failed: %s", strerror(errno)));
+	}
 
-        if (prefetch > 0) {
-            // Advise the kernel to preload the mapped memory
-            if (posix_madvise(addr, std::min(file->size, prefetch), POSIX_MADV_WILLNEED)) {
-                fprintf(stderr, "warning: posix_madvise(.., POSIX_MADV_WILLNEED) failed: %s\n",
-                        strerror(errno));
-            }
-        }
-        if (numa) {
-            // advise the kernel not to use readahead
-            // (because the next page might not belong on the same node)
-            if (posix_madvise(addr, file->size, POSIX_MADV_RANDOM)) {
-                fprintf(stderr, "warning: posix_madvise(.., POSIX_MADV_RANDOM) failed: %s\n",
-                        strerror(errno));
-            }
-        }
+	if (prefetch > 0) {
+	    // Advise the kernel to preload the mapped memory
+	    if (posix_madvise(addr, std::min(file->size, prefetch), POSIX_MADV_WILLNEED)) {
+		fprintf(stderr, "warning: posix_madvise(.., POSIX_MADV_WILLNEED) failed: %s\n",
+			strerror(errno));
+	    }
+	}
+	if (numa) {
+	    // advise the kernel not to use readahead
+	    // (because the next page might not belong on the same node)
+	    if (posix_madvise(addr, file->size, POSIX_MADV_RANDOM)) {
+		fprintf(stderr, "warning: posix_madvise(.., POSIX_MADV_RANDOM) failed: %s\n",
+			strerror(errno));
+	    }
+	}
     }
 
     ~llama_mmap() {
-        munmap(addr, size);
+	munmap(addr, size);
     }
 #elif defined(_WIN32)
     static constexpr bool SUPPORTED = true;
 
     llama_mmap(struct llama_file * file, bool prefetch = true, bool numa = false) {
-        (void) numa;
+	(void) numa;
 
-        size = file->size;
+	size = file->size;
 
-        HANDLE hFile = (HANDLE) _get_osfhandle(_fileno(file->fp));
+	HANDLE hFile = (HANDLE) _get_osfhandle(_fileno(file->fp));
 
-        HANDLE hMapping = CreateFileMappingA(hFile, NULL, PAGE_READONLY, 0, 0, NULL);
-        DWORD error = GetLastError();
+	HANDLE hMapping = CreateFileMappingA(hFile, NULL, PAGE_READONLY, 0, 0, NULL);
+	DWORD error = GetLastError();
 
-        if (hMapping == NULL) {
-            throw std::runtime_error(format("CreateFileMappingA failed: %s", llama_format_win_err(error).c_str()));
-        }
+	if (hMapping == NULL) {
+	    throw std::runtime_error(format("CreateFileMappingA failed: %s", llama_format_win_err(error).c_str()));
+	}
 
-        addr = MapViewOfFile(hMapping, FILE_MAP_READ, 0, 0, 0);
-        error = GetLastError();
-        CloseHandle(hMapping);
+	addr = MapViewOfFile(hMapping, FILE_MAP_READ, 0, 0, 0);
+	error = GetLastError();
+	CloseHandle(hMapping);
 
-        if (addr == NULL) {
-            throw std::runtime_error(format("MapViewOfFile failed: %s", llama_format_win_err(error).c_str()));
-        }
+	if (addr == NULL) {
+	    throw std::runtime_error(format("MapViewOfFile failed: %s", llama_format_win_err(error).c_str()));
+	}
 
-        if (prefetch) {
-            // PrefetchVirtualMemory is only present on Windows 8 and above, so we dynamically load it
-            BOOL (WINAPI *pPrefetchVirtualMemory) (HANDLE, ULONG_PTR, PWIN32_MEMORY_RANGE_ENTRY, ULONG);
-            HMODULE hKernel32 = GetModuleHandleW(L"kernel32.dll");
+	if (prefetch) {
+	    // PrefetchVirtualMemory is only present on Windows 8 and above, so we dynamically load it
+	    BOOL (WINAPI *pPrefetchVirtualMemory) (HANDLE, ULONG_PTR, PWIN32_MEMORY_RANGE_ENTRY, ULONG);
+	    HMODULE hKernel32 = GetModuleHandleW(L"kernel32.dll");
 
-            // may fail on pre-Windows 8 systems
-            pPrefetchVirtualMemory = reinterpret_cast<decltype(pPrefetchVirtualMemory)> (GetProcAddress(hKernel32, "PrefetchVirtualMemory"));
+	    // may fail on pre-Windows 8 systems
+	    pPrefetchVirtualMemory = reinterpret_cast<decltype(pPrefetchVirtualMemory)> (GetProcAddress(hKernel32, "PrefetchVirtualMemory"));
 
-            if (pPrefetchVirtualMemory) {
-                // advise the kernel to preload the mapped memory
-                WIN32_MEMORY_RANGE_ENTRY range;
-                range.VirtualAddress = addr;
-                range.NumberOfBytes = (SIZE_T)size;
-                if (!pPrefetchVirtualMemory(GetCurrentProcess(), 1, &range, 0)) {
-                    fprintf(stderr, "warning: PrefetchVirtualMemory failed: %s\n",
-                            llama_format_win_err(GetLastError()).c_str());
-                }
-            }
-        }
+	    if (pPrefetchVirtualMemory) {
+		// advise the kernel to preload the mapped memory
+		WIN32_MEMORY_RANGE_ENTRY range;
+		range.VirtualAddress = addr;
+		range.NumberOfBytes = (SIZE_T)size;
+		if (!pPrefetchVirtualMemory(GetCurrentProcess(), 1, &range, 0)) {
+		    fprintf(stderr, "warning: PrefetchVirtualMemory failed: %s\n",
+			    llama_format_win_err(GetLastError()).c_str());
+		}
+	    }
+	}
     }
 
     ~llama_mmap() {
-        if (!UnmapViewOfFile(addr)) {
-            fprintf(stderr, "warning: UnmapViewOfFile failed: %s\n",
-                    llama_format_win_err(GetLastError()).c_str());
-        }
+	if (!UnmapViewOfFile(addr)) {
+	    fprintf(stderr, "warning: UnmapViewOfFile failed: %s\n",
+		    llama_format_win_err(GetLastError()).c_str());
+	}
     }
 #else
     static constexpr bool SUPPORTED = false;
 
     llama_mmap(struct llama_file * file, bool prefetch = true, bool numa = false) {
-        (void) file;
-        (void) prefetch;
-        (void) numa;
+	(void) file;
+	(void) prefetch;
+	(void) numa;
 
-        throw std::runtime_error(std::string("mmap not supported"));
+	throw std::runtime_error(std::string("mmap not supported"));
     }
 #endif
 };
@@ -955,137 +955,137 @@ struct llama_mlock {
     llama_mlock(const llama_mlock &) = delete;
 
     ~llama_mlock() {
-        if (size) {
-            raw_unlock(addr, size);
-        }
+	if (size) {
+	    raw_unlock(addr, size);
+	}
     }
 
     void init(void * ptr) {
-        GGML_ASSERT(addr == NULL && size == 0); // NOLINT
-        addr = ptr;
+	GGML_ASSERT(addr == NULL && size == 0); // NOLINT
+	addr = ptr;
     }
 
     void grow_to(size_t target_size) {
-        GGML_ASSERT(addr);
-        if (failed_already) {
-            return;
-        }
-        size_t granularity = lock_granularity();
-        target_size = (target_size + granularity - 1) & ~(granularity - 1);
-        if (target_size > size) {
-            if (raw_lock((uint8_t *) addr + size, target_size - size)) {
-                size = target_size;
-            } else {
-                failed_already = true;
-            }
-        }
+	GGML_ASSERT(addr);
+	if (failed_already) {
+	    return;
+	}
+	size_t granularity = lock_granularity();
+	target_size = (target_size + granularity - 1) & ~(granularity - 1);
+	if (target_size > size) {
+	    if (raw_lock((uint8_t *) addr + size, target_size - size)) {
+		size = target_size;
+	    } else {
+		failed_already = true;
+	    }
+	}
     }
 
 #ifdef _POSIX_MEMLOCK_RANGE
     static constexpr bool SUPPORTED = true;
 
     static size_t lock_granularity() {
-        return (size_t) sysconf(_SC_PAGESIZE);
+	return (size_t) sysconf(_SC_PAGESIZE);
     }
 
     #ifdef __APPLE__
-        #define MLOCK_SUGGESTION \
-            "Try increasing the sysctl values 'vm.user_wire_limit' and 'vm.global_user_wire_limit' and/or " \
-            "decreasing 'vm.global_no_user_wire_amount'.  Also try increasing RLIMIT_MLOCK (ulimit -l).\n"
+	#define MLOCK_SUGGESTION \
+	    "Try increasing the sysctl values 'vm.user_wire_limit' and 'vm.global_user_wire_limit' and/or " \
+	    "decreasing 'vm.global_no_user_wire_amount'.  Also try increasing RLIMIT_MLOCK (ulimit -l).\n"
     #else
-        #define MLOCK_SUGGESTION \
-            "Try increasing RLIMIT_MLOCK ('ulimit -l' as root).\n"
+	#define MLOCK_SUGGESTION \
+	    "Try increasing RLIMIT_MLOCK ('ulimit -l' as root).\n"
     #endif
 
     bool raw_lock(const void * addr, size_t size) const {
-        if (!mlock(addr, size)) {
-            return true;
-        }
+	if (!mlock(addr, size)) {
+	    return true;
+	}
 
-        char* errmsg = std::strerror(errno);
-        bool suggest = (errno == ENOMEM);
+	char* errmsg = std::strerror(errno);
+	bool suggest = (errno == ENOMEM);
 
-        // Check if the resource limit is fine after all
-        struct rlimit lock_limit;
-        if (suggest && getrlimit(RLIMIT_MEMLOCK, &lock_limit)) {
-            suggest = false;
-        }
-        if (suggest && (lock_limit.rlim_max > lock_limit.rlim_cur + size)) {
-            suggest = false;
-        }
+	// Check if the resource limit is fine after all
+	struct rlimit lock_limit;
+	if (suggest && getrlimit(RLIMIT_MEMLOCK, &lock_limit)) {
+	    suggest = false;
+	}
+	if (suggest && (lock_limit.rlim_max > lock_limit.rlim_cur + size)) {
+	    suggest = false;
+	}
 
-        fprintf(stderr, "warning: failed to mlock %zu-byte buffer (after previously locking %zu bytes): %s\n%s",
-                size, this->size, errmsg, suggest ? MLOCK_SUGGESTION : "");
-        return false;
+	fprintf(stderr, "warning: failed to mlock %zu-byte buffer (after previously locking %zu bytes): %s\n%s",
+		size, this->size, errmsg, suggest ? MLOCK_SUGGESTION : "");
+	return false;
     }
 
     #undef MLOCK_SUGGESTION
 
     static void raw_unlock(void * addr, size_t size) {
-        if (munlock(addr, size)) {
-            fprintf(stderr, "warning: failed to munlock buffer: %s\n", std::strerror(errno));
-        }
+	if (munlock(addr, size)) {
+	    fprintf(stderr, "warning: failed to munlock buffer: %s\n", std::strerror(errno));
+	}
     }
 #elif defined(_WIN32)
     static constexpr bool SUPPORTED = true;
 
     static size_t lock_granularity() {
-        SYSTEM_INFO si;
-        GetSystemInfo(&si);
-        return (size_t) si.dwPageSize;
+	SYSTEM_INFO si;
+	GetSystemInfo(&si);
+	return (size_t) si.dwPageSize;
     }
 
     bool raw_lock(void * ptr, size_t len) const {
-        for (int tries = 1; ; tries++) {
-            if (VirtualLock(ptr, len)) {
-                return true;
-            }
-            if (tries == 2) {
-                fprintf(stderr, "warning: failed to VirtualLock %zu-byte buffer (after previously locking %zu bytes): %s\n",
-                    len, size, llama_format_win_err(GetLastError()).c_str());
-                return false;
-            }
+	for (int tries = 1; ; tries++) {
+	    if (VirtualLock(ptr, len)) {
+		return true;
+	    }
+	    if (tries == 2) {
+		fprintf(stderr, "warning: failed to VirtualLock %zu-byte buffer (after previously locking %zu bytes): %s\n",
+		    len, size, llama_format_win_err(GetLastError()).c_str());
+		return false;
+	    }
 
-            // It failed but this was only the first try; increase the working
-            // set size and try again.
-            SIZE_T min_ws_size, max_ws_size;
-            if (!GetProcessWorkingSetSize(GetCurrentProcess(), &min_ws_size, &max_ws_size)) {
-                fprintf(stderr, "warning: GetProcessWorkingSetSize failed: %s\n",
-                        llama_format_win_err(GetLastError()).c_str());
-                return false;
-            }
-            // Per MSDN: "The maximum number of pages that a process can lock
-            // is equal to the number of pages in its minimum working set minus
-            // a small overhead."
-            // Hopefully a megabyte is enough overhead:
-            size_t increment = len + 1048576;
-            // The minimum must be <= the maximum, so we need to increase both:
-            min_ws_size += increment;
-            max_ws_size += increment;
-            if (!SetProcessWorkingSetSize(GetCurrentProcess(), min_ws_size, max_ws_size)) {
-                fprintf(stderr, "warning: SetProcessWorkingSetSize failed: %s\n",
-                        llama_format_win_err(GetLastError()).c_str());
-                return false;
-            }
-        }
+	    // It failed but this was only the first try; increase the working
+	    // set size and try again.
+	    SIZE_T min_ws_size, max_ws_size;
+	    if (!GetProcessWorkingSetSize(GetCurrentProcess(), &min_ws_size, &max_ws_size)) {
+		fprintf(stderr, "warning: GetProcessWorkingSetSize failed: %s\n",
+			llama_format_win_err(GetLastError()).c_str());
+		return false;
+	    }
+	    // Per MSDN: "The maximum number of pages that a process can lock
+	    // is equal to the number of pages in its minimum working set minus
+	    // a small overhead."
+	    // Hopefully a megabyte is enough overhead:
+	    size_t increment = len + 1048576;
+	    // The minimum must be <= the maximum, so we need to increase both:
+	    min_ws_size += increment;
+	    max_ws_size += increment;
+	    if (!SetProcessWorkingSetSize(GetCurrentProcess(), min_ws_size, max_ws_size)) {
+		fprintf(stderr, "warning: SetProcessWorkingSetSize failed: %s\n",
+			llama_format_win_err(GetLastError()).c_str());
+		return false;
+	    }
+	}
     }
 
     static void raw_unlock(void * ptr, size_t len) {
-        if (!VirtualUnlock(ptr, len)) {
-            fprintf(stderr, "warning: failed to VirtualUnlock buffer: %s\n",
-                    llama_format_win_err(GetLastError()).c_str());
-        }
+	if (!VirtualUnlock(ptr, len)) {
+	    fprintf(stderr, "warning: failed to VirtualUnlock buffer: %s\n",
+		    llama_format_win_err(GetLastError()).c_str());
+	}
     }
 #else
     static constexpr bool SUPPORTED = false;
 
     static size_t lock_granularity() {
-        return (size_t) 65536;
+	return (size_t) 65536;
     }
 
     bool raw_lock(const void * addr, size_t len) const {
-        fprintf(stderr, "warning: mlock not supported on this system\n");
-        return false;
+	fprintf(stderr, "warning: mlock not supported on this system\n");
+	return false;
     }
 
     static void raw_unlock(const void * addr, size_t len) {}
@@ -1102,12 +1102,12 @@ static std::string llama_token_to_piece(const struct llama_context * ctx, llama_
     std::vector<char> result(8, 0);
     const int n_tokens = llama_token_to_piece(llama_get_model(ctx), token, result.data(), result.size());
     if (n_tokens < 0) {
-        result.resize(-n_tokens);
-        int check = llama_token_to_piece(llama_get_model(ctx), token, result.data(), result.size());
-        GGML_ASSERT(check == -n_tokens);
+	result.resize(-n_tokens);
+	int check = llama_token_to_piece(llama_get_model(ctx), token, result.data(), result.size());
+	GGML_ASSERT(check == -n_tokens);
     }
     else {
-        result.resize(n_tokens);
+	result.resize(n_tokens);
     }
 
     return std::string(result.data(), result.size());
@@ -1169,38 +1169,38 @@ struct llama_hparams {
     float f_max_alibi_bias;
 
     bool operator!=(const llama_hparams & other) const {
-        if (this->vocab_only  != other.vocab_only)  return true;
-        if (this->n_vocab     != other.n_vocab)     return true;
-        if (this->n_ctx_train != other.n_ctx_train) return true;
-        if (this->n_embd      != other.n_embd)      return true;
-        if (this->n_head      != other.n_head)      return true;
-        if (this->n_head_kv   != other.n_head_kv)   return true;
-        if (this->n_layer     != other.n_layer)     return true;
-        if (this->n_rot       != other.n_rot)       return true;
-        if (this->n_ff        != other.n_ff)        return true;
-        if (this->rope_finetuned  != other.rope_finetuned)  return true;
-        if (this->n_yarn_orig_ctx != other.n_yarn_orig_ctx) return true;
+	if (this->vocab_only  != other.vocab_only)  return true;
+	if (this->n_vocab     != other.n_vocab)     return true;
+	if (this->n_ctx_train != other.n_ctx_train) return true;
+	if (this->n_embd      != other.n_embd)      return true;
+	if (this->n_head      != other.n_head)      return true;
+	if (this->n_head_kv   != other.n_head_kv)   return true;
+	if (this->n_layer     != other.n_layer)     return true;
+	if (this->n_rot       != other.n_rot)       return true;
+	if (this->n_ff        != other.n_ff)        return true;
+	if (this->rope_finetuned  != other.rope_finetuned)  return true;
+	if (this->n_yarn_orig_ctx != other.n_yarn_orig_ctx) return true;
 
-        const float EPSILON = 1e-9;
+	const float EPSILON = 1e-9;
 
-        if (!is_float_close(this->f_norm_eps,            other.f_norm_eps,            EPSILON)) return true;
-        if (!is_float_close(this->f_norm_rms_eps,        other.f_norm_rms_eps,        EPSILON)) return true;
-        if (!is_float_close(this->rope_freq_base_train,  other.rope_freq_base_train,  EPSILON)) return true;
-        if (!is_float_close(this->rope_freq_scale_train, other.rope_freq_scale_train, EPSILON)) return true;
+	if (!is_float_close(this->f_norm_eps,            other.f_norm_eps,            EPSILON)) return true;
+	if (!is_float_close(this->f_norm_rms_eps,        other.f_norm_rms_eps,        EPSILON)) return true;
+	if (!is_float_close(this->rope_freq_base_train,  other.rope_freq_base_train,  EPSILON)) return true;
+	if (!is_float_close(this->rope_freq_scale_train, other.rope_freq_scale_train, EPSILON)) return true;
 
-        return false;
+	return false;
     }
 
     uint32_t n_gqa() const {
-        return n_head/n_head_kv;
+	return n_head/n_head_kv;
     }
 
     uint32_t n_embd_head() const {
-        return n_embd/n_head;
+	return n_embd/n_head;
     }
 
     uint32_t n_embd_gqa() const {
-        return n_embd/n_gqa();
+	return n_embd/n_gqa();
     }
 };
 
@@ -1267,7 +1267,7 @@ struct llama_kv_cell {
     std::set<llama_seq_id> seq_id;
 
     bool has_seq_id(const llama_seq_id & id) const {
-        return seq_id.find(id) != seq_id.end();
+	return seq_id.find(id) != seq_id.end();
     }
 };
 
@@ -1294,15 +1294,15 @@ struct llama_kv_cache {
     llama_buffer buf;
 
     ~llama_kv_cache() {
-        if (ctx) {
-            ggml_free(ctx);
-        }
+	if (ctx) {
+	    ggml_free(ctx);
+	}
 
 #ifdef GGML_USE_CUBLAS
-        if (ggml_cublas_loaded()) {
-            ggml_cuda_free_data(k);
-            ggml_cuda_free_data(v);
-        }
+	if (ggml_cublas_loaded()) {
+	    ggml_cuda_free_data(k);
+	    ggml_cuda_free_data(v);
+	}
 #endif
     }
 };
@@ -1313,9 +1313,9 @@ struct llama_vocab {
     using ttype = llama_token_type;
 
     struct token_data {
-        token text;
-        float score;
-        ttype type;
+	token text;
+	float score;
+	ttype type;
     };
 
     enum llama_vocab_type type = LLAMA_VOCAB_TYPE_SPM;
@@ -1344,17 +1344,17 @@ struct llama_vocab {
     id special_eot_id    = 32010;
 
     int find_bpe_rank(std::string token_left, std::string token_right) const {
-        GGML_ASSERT(token_left.find(" ") == std::string::npos);
-        GGML_ASSERT(token_left.find("\n") == std::string::npos);
-        GGML_ASSERT(token_right.find(" ") == std::string::npos);
-        GGML_ASSERT(token_right.find("\n") == std::string::npos);
+	GGML_ASSERT(token_left.find(" ") == std::string::npos);
+	GGML_ASSERT(token_left.find("\n") == std::string::npos);
+	GGML_ASSERT(token_right.find(" ") == std::string::npos);
+	GGML_ASSERT(token_right.find("\n") == std::string::npos);
 
-        auto it = bpe_ranks.find(std::make_pair(token_left, token_right));
-        if (it == bpe_ranks.end()) {
-            return -1;
-        }
+	auto it = bpe_ranks.find(std::make_pair(token_left, token_right));
+	if (it == bpe_ranks.end()) {
+	    return -1;
+	}
 
-        return it->second;
+	return it->second;
     }
 };
 
@@ -1404,23 +1404,23 @@ struct llama_model {
     int64_t t_start_us = 0;
 
     ~llama_model() {
-        if (ctx) {
-            ggml_free(ctx);
-        }
+	if (ctx) {
+	    ggml_free(ctx);
+	}
 
 #ifdef GGML_USE_CUBLAS
-        if (ggml_cublas_loaded()) {
-            for (size_t i = 0; i < tensors_by_name.size(); ++i) {
-                ggml_cuda_free_data(tensors_by_name[i].second);
-            }
-            ggml_cuda_free_scratch();
-        }
+	if (ggml_cublas_loaded()) {
+	    for (size_t i = 0; i < tensors_by_name.size(); ++i) {
+		ggml_cuda_free_data(tensors_by_name[i].second);
+	    }
+	    ggml_cuda_free_scratch();
+	}
 #endif
 
 #if defined(GGML_USE_CLBLAST)
-        for (size_t i = 0; i < tensors_by_name.size(); ++i) {
-            ggml_cl_free_data(tensors_by_name[i].second);
-        }
+	for (size_t i = 0; i < tensors_by_name.size(); ++i) {
+	    ggml_cl_free_data(tensors_by_name[i].second);
+	}
 #endif
     }
 };
@@ -1429,13 +1429,13 @@ struct llama_context {
     llama_context(const llama_model & model) : model(model), t_start_us(model.t_start_us), t_load_us(model.t_load_us) {}
     ~llama_context() {
 #ifdef GGML_USE_METAL
-        if (ctx_metal) {
-            ggml_metal_free(ctx_metal);
-        }
+	if (ctx_metal) {
+	    ggml_metal_free(ctx_metal);
+	}
 #endif
-        if (alloc) {
-            ggml_allocr_free(alloc);
-        }
+	if (alloc) {
+	    ggml_allocr_free(alloc);
+	}
     }
 
     llama_cparams cparams;
@@ -1489,11 +1489,11 @@ struct llama_context {
 //
 
 static bool llama_kv_cache_init(
-        const struct llama_hparams & hparams,
-             struct llama_kv_cache & cache,
-                         ggml_type   wtype,
-                          uint32_t   n_ctx,
-                               int   n_gpu_layers) {
+	const struct llama_hparams & hparams,
+	     struct llama_kv_cache & cache,
+			 ggml_type   wtype,
+			  uint32_t   n_ctx,
+			       int   n_gpu_layers) {
   fprintf(stderr, "GPULAYERS '%d'\n", n_gpu_layers);
     const uint32_t n_embd  = hparams.n_embd_gqa();
     const uint32_t n_layer = hparams.n_layer;
@@ -1520,8 +1520,8 @@ static bool llama_kv_cache_init(
     cache.ctx = ggml_init(params);
 
     if (!cache.ctx) {
-        LLAMA_LOG_ERROR("%s: failed to allocate memory for kv cache\n", __func__);
-        return false;
+	LLAMA_LOG_ERROR("%s: failed to allocate memory for kv cache\n", __func__);
+	return false;
     }
 
     cache.k = ggml_new_tensor_1d(cache.ctx, wtype, n_elements);
@@ -1534,21 +1534,21 @@ static bool llama_kv_cache_init(
 #ifdef GGML_USE_CUBLAS
     fprintf(stderr, "USE CUBLAS\n");
     if (ggml_cublas_loaded()) {
-        size_t vram_kv_cache = 0;
+	size_t vram_kv_cache = 0;
 
-        if (n_gpu_layers > (int)n_layer + 1) {
-            ggml_cuda_assign_buffers_no_scratch(cache.v);
-            LLAMA_LOG_INFO("%s: offloading v cache to GPU\n", __func__);
-            vram_kv_cache += ggml_nbytes(cache.v);
-        }
-        if (n_gpu_layers > (int)n_layer + 2) {
-            ggml_cuda_assign_buffers_no_scratch(cache.k);
-            LLAMA_LOG_INFO("%s: offloading k cache to GPU\n", __func__);
-            vram_kv_cache += ggml_nbytes(cache.k);
-        }
-        if (vram_kv_cache > 0) {
-            LLAMA_LOG_INFO("%s: VRAM kv self = %.2f MiB\n", __func__, vram_kv_cache / 1024.0 / 1024.0);
-        }
+	if (n_gpu_layers > (int)n_layer + 1) {
+	    ggml_cuda_assign_buffers_no_scratch(cache.v);
+	    LLAMA_LOG_INFO("%s: offloading v cache to GPU\n", __func__);
+	    vram_kv_cache += ggml_nbytes(cache.v);
+	}
+	if (n_gpu_layers > (int)n_layer + 2) {
+	    ggml_cuda_assign_buffers_no_scratch(cache.k);
+	    LLAMA_LOG_INFO("%s: offloading k cache to GPU\n", __func__);
+	    vram_kv_cache += ggml_nbytes(cache.k);
+	}
+	if (vram_kv_cache > 0) {
+	    LLAMA_LOG_INFO("%s: VRAM kv self = %.2f MiB\n", __func__, vram_kv_cache / 1024.0 / 1024.0);
+	}
     }
    #else
     fprintf(stderr, "NO USE CUBLAS\n");
@@ -1562,51 +1562,51 @@ static bool llama_kv_cache_init(
 // Note: On success, it's important that cache.head points
 // to the first cell of the slot.
 static bool llama_kv_cache_find_slot(
-           struct llama_kv_cache & cache,
-        const struct llama_batch & batch) {
+	   struct llama_kv_cache & cache,
+	const struct llama_batch & batch) {
     const uint32_t n_ctx    = cache.size;
     const uint32_t n_tokens = batch.n_tokens;
 
     if (n_tokens > n_ctx) {
-        LLAMA_LOG_ERROR("%s: n_tokens=%d > n_ctx=%d\n", __func__, n_tokens, n_ctx);
-        return false;
+	LLAMA_LOG_ERROR("%s: n_tokens=%d > n_ctx=%d\n", __func__, n_tokens, n_ctx);
+	return false;
     }
 
     uint32_t n_tested = 0;
 
     while (true) {
-        if (cache.head + n_tokens > n_ctx) {
-            n_tested += n_ctx - cache.head;
-            cache.head = 0;
-            continue;
-        }
+	if (cache.head + n_tokens > n_ctx) {
+	    n_tested += n_ctx - cache.head;
+	    cache.head = 0;
+	    continue;
+	}
 
-        bool found = true;
-        for (uint32_t i = 0; i < n_tokens; i++) {
-            if (cache.cells[cache.head + i].pos >= 0) {
-                found = false;
-                cache.head += i + 1;
-                n_tested   += i + 1;
-                break;
-            }
-        }
+	bool found = true;
+	for (uint32_t i = 0; i < n_tokens; i++) {
+	    if (cache.cells[cache.head + i].pos >= 0) {
+		found = false;
+		cache.head += i + 1;
+		n_tested   += i + 1;
+		break;
+	    }
+	}
 
-        if (found) {
-            break;
-        }
+	if (found) {
+	    break;
+	}
 
-        if (n_tested >= n_ctx) {
-            //LLAMA_LOG_ERROR("%s: failed to find a slot for %d tokens\n", __func__, n_tokens);
-            return false;
-        }
+	if (n_tested >= n_ctx) {
+	    //LLAMA_LOG_ERROR("%s: failed to find a slot for %d tokens\n", __func__, n_tokens);
+	    return false;
+	}
     }
 
     for (uint32_t i = 0; i < n_tokens; i++) {
-        cache.cells[cache.head + i].pos = batch.pos[i];
+	cache.cells[cache.head + i].pos = batch.pos[i];
 
-        for (int32_t j = 0; j < batch.n_seq_id[i]; j++) {
-            cache.cells[cache.head + i].seq_id.insert(batch.seq_id[i][j]);
-        }
+	for (int32_t j = 0; j < batch.n_seq_id[i]; j++) {
+	    cache.cells[cache.head + i].seq_id.insert(batch.seq_id[i][j]);
+	}
     }
 
     return true;
@@ -1615,9 +1615,9 @@ static bool llama_kv_cache_find_slot(
 // find how many cells are currently in use
 static int32_t llama_kv_cache_cell_max(const struct llama_kv_cache & cache) {
     for (uint32_t i = cache.size - 1; i > 0; --i) {
-        if (cache.cells[i].pos >= 0 && !cache.cells[i].seq_id.empty()) {
-            return i + 1;
-        }
+	if (cache.cells[i].pos >= 0 && !cache.cells[i].seq_id.empty()) {
+	    return i + 1;
+	}
     }
 
     return 0;
@@ -1625,36 +1625,36 @@ static int32_t llama_kv_cache_cell_max(const struct llama_kv_cache & cache) {
 
 static void llama_kv_cache_clear(struct llama_kv_cache & cache) {
     for (int32_t i = 0; i < (int32_t) cache.size; ++i) {
-        cache.cells[i].pos = -1;
-        cache.cells[i].seq_id.clear();
+	cache.cells[i].pos = -1;
+	cache.cells[i].seq_id.clear();
     }
     cache.head = 0;
 }
 
 static void llama_kv_cache_seq_rm(
-        struct llama_kv_cache & cache,
-                 llama_seq_id   seq_id,
-                    llama_pos   p0,
-                    llama_pos   p1) {
+	struct llama_kv_cache & cache,
+		 llama_seq_id   seq_id,
+		    llama_pos   p0,
+		    llama_pos   p1) {
     uint32_t new_head = cache.size;
 
     if (p0 < 0) p0 = 0;
     if (p1 < 0) p1 = std::numeric_limits<llama_pos>::max();
 
     for (uint32_t i = 0; i < cache.size; ++i) {
-        if (cache.cells[i].pos >= p0 && cache.cells[i].pos < p1) {
-            if (seq_id < 0) {
-                cache.cells[i].seq_id.clear();
-            } else if (cache.cells[i].has_seq_id(seq_id)) {
-                cache.cells[i].seq_id.erase(seq_id);
-            } else {
-                continue;
-            }
-            if (cache.cells[i].seq_id.empty()) {
-                cache.cells[i].pos = -1;
-                if (new_head == cache.size) new_head = i;
-            }
-        }
+	if (cache.cells[i].pos >= p0 && cache.cells[i].pos < p1) {
+	    if (seq_id < 0) {
+		cache.cells[i].seq_id.clear();
+	    } else if (cache.cells[i].has_seq_id(seq_id)) {
+		cache.cells[i].seq_id.erase(seq_id);
+	    } else {
+		continue;
+	    }
+	    if (cache.cells[i].seq_id.empty()) {
+		cache.cells[i].pos = -1;
+		if (new_head == cache.size) new_head = i;
+	    }
+	}
     }
 
     // If we freed up a slot, set head to it so searching can start there.
@@ -1662,20 +1662,20 @@ static void llama_kv_cache_seq_rm(
 }
 
 static void llama_kv_cache_seq_cp(
-        struct llama_kv_cache & cache,
-                 llama_seq_id   seq_id_src,
-                 llama_seq_id   seq_id_dst,
-                    llama_pos   p0,
-                    llama_pos   p1) {
+	struct llama_kv_cache & cache,
+		 llama_seq_id   seq_id_src,
+		 llama_seq_id   seq_id_dst,
+		    llama_pos   p0,
+		    llama_pos   p1) {
     if (p0 < 0) p0 = 0;
     if (p1 < 0) p1 = std::numeric_limits<llama_pos>::max();
 
     cache.head = 0;
 
     for (uint32_t i = 0; i < cache.size; ++i) {
-        if (cache.cells[i].has_seq_id(seq_id_src) && cache.cells[i].pos >= p0 && cache.cells[i].pos < p1) {
-            cache.cells[i].seq_id.insert(seq_id_dst);
-        }
+	if (cache.cells[i].has_seq_id(seq_id_src) && cache.cells[i].pos >= p0 && cache.cells[i].pos < p1) {
+	    cache.cells[i].seq_id.insert(seq_id_dst);
+	}
     }
 }
 
@@ -1683,14 +1683,14 @@ static void llama_kv_cache_seq_keep(struct llama_kv_cache & cache, llama_seq_id
     uint32_t new_head = cache.size;
 
     for (uint32_t i = 0; i < cache.size; ++i) {
-        if (!cache.cells[i].has_seq_id(seq_id)) {
-            cache.cells[i].pos = -1;
-            cache.cells[i].seq_id.clear();
-            if (new_head == cache.size) new_head = i;
-        } else {
-            cache.cells[i].seq_id.clear();
-            cache.cells[i].seq_id.insert(seq_id);
-        }
+	if (!cache.cells[i].has_seq_id(seq_id)) {
+	    cache.cells[i].pos = -1;
+	    cache.cells[i].seq_id.clear();
+	    if (new_head == cache.size) new_head = i;
+	} else {
+	    cache.cells[i].seq_id.clear();
+	    cache.cells[i].seq_id.insert(seq_id);
+	}
     }
 
     // If we freed up a slot, set head to it so searching can start there.
@@ -1698,28 +1698,28 @@ static void llama_kv_cache_seq_keep(struct llama_kv_cache & cache, llama_seq_id
 }
 
 static void llama_kv_cache_seq_shift(
-        struct llama_kv_cache & cache,
-                 llama_seq_id   seq_id,
-                    llama_pos   p0,
-                    llama_pos   p1,
-                    llama_pos   delta) {
+	struct llama_kv_cache & cache,
+		 llama_seq_id   seq_id,
+		    llama_pos   p0,
+		    llama_pos   p1,
+		    llama_pos   delta) {
     uint32_t new_head = cache.size;
 
     if (p0 < 0) p0 = 0;
     if (p1 < 0) p1 = std::numeric_limits<llama_pos>::max();
 
     for (uint32_t i = 0; i < cache.size; ++i) {
-        if (cache.cells[i].has_seq_id(seq_id) && cache.cells[i].pos >= p0 && cache.cells[i].pos < p1) {
-            cache.has_shift = true;
-            cache.cells[i].pos   += delta;
-            cache.cells[i].delta += delta;
+	if (cache.cells[i].has_seq_id(seq_id) && cache.cells[i].pos >= p0 && cache.cells[i].pos < p1) {
+	    cache.has_shift = true;
+	    cache.cells[i].pos   += delta;
+	    cache.cells[i].delta += delta;
 
-            if (cache.cells[i].pos < 0) {
-                cache.cells[i].pos = -1;
-                cache.cells[i].seq_id.clear();
-                if (new_head == cache.size) new_head = i;
-            }
-        }
+	    if (cache.cells[i].pos < 0) {
+		cache.cells[i].pos = -1;
+		cache.cells[i].seq_id.clear();
+		if (new_head == cache.size) new_head = i;
+	    }
+	}
     }
 
     // If we freed up a slot, set head to it so searching can start there.
@@ -1739,9 +1739,9 @@ enum llama_fver {
 
 static const char * llama_file_version_name(llama_fver version) {
     switch (version) {
-        case GGUF_FILE_VERSION_V1: return "GGUF V1 (support until nov 2023)";
-        case GGUF_FILE_VERSION_V2: return "GGUF V2";
-        case GGUF_FILE_VERSION_V3: return "GGUF V3 (latest)";
+	case GGUF_FILE_VERSION_V1: return "GGUF V1 (support until nov 2023)";
+	case GGUF_FILE_VERSION_V2: return "GGUF V2";
+	case GGUF_FILE_VERSION_V3: return "GGUF V3 (latest)";
     }
 
     return "unknown";
@@ -1751,7 +1751,7 @@ static std::string llama_format_tensor_shape(const std::vector<int64_t> & ne) {
     char buf[256];
     snprintf(buf, sizeof(buf), "%5" PRId64, ne.at(0));
     for (size_t i = 1; i < ne.size(); i++) {
-        snprintf(buf + strlen(buf), sizeof(buf) - strlen(buf), ", %5" PRId64, ne.at(i));
+	snprintf(buf + strlen(buf), sizeof(buf) - strlen(buf), ", %5" PRId64, ne.at(i));
     }
     return buf;
 }
@@ -1760,7 +1760,7 @@ static std::string llama_format_tensor_shape(const struct ggml_tensor * t) {
     char buf[256];
     snprintf(buf, sizeof(buf), "%5" PRId64, t->ne[0]);
     for (int i = 1; i < GGML_MAX_DIMS; i++) {
-        snprintf(buf + strlen(buf), sizeof(buf) - strlen(buf), ", %5" PRId64, t->ne[i]);
+	snprintf(buf + strlen(buf), sizeof(buf) - strlen(buf), ", %5" PRId64, t->ne[i]);
     }
     return buf;
 }
@@ -1785,315 +1785,315 @@ struct llama_model_loader {
     struct ggml_context * ctx_meta = NULL;
 
     llama_model_loader(const std::string & fname, bool use_mmap) : file(fname.c_str(), "rb") {
-        struct gguf_init_params params = {
+	struct gguf_init_params params = {
 	  .no_alloc =  true,
 	  .ctx      =  &ctx_meta,
-        };
+	};
 
-        ctx_gguf = gguf_init_from_file(fname.c_str(), params);
-        if (!ctx_gguf) {
-            throw std::runtime_error(format("%s: failed to load model from %s\n", __func__, fname.c_str()));
-        }
+	ctx_gguf = gguf_init_from_file(fname.c_str(), params);
+	if (!ctx_gguf) {
+	    throw std::runtime_error(format("%s: failed to load model from %s\n", __func__, fname.c_str()));
+	}
 
-        n_kv      = gguf_get_n_kv(ctx_gguf);
-        n_tensors = gguf_get_n_tensors(ctx_gguf);
+	n_kv      = gguf_get_n_kv(ctx_gguf);
+	n_tensors = gguf_get_n_tensors(ctx_gguf);
 
-        fver = (enum llama_fver ) gguf_get_version(ctx_gguf);
+	fver = (enum llama_fver ) gguf_get_version(ctx_gguf);
 
-        for (int i = 0; i < n_tensors; i++) {
-            const char * name = gguf_get_tensor_name(ctx_gguf, i);
-            struct ggml_tensor * t = ggml_get_tensor(ctx_meta, name);
-            n_elements += ggml_nelements(t);
-            n_bytes    += ggml_nbytes(t);
-        }
+	for (int i = 0; i < n_tensors; i++) {
+	    const char * name = gguf_get_tensor_name(ctx_gguf, i);
+	    struct ggml_tensor * t = ggml_get_tensor(ctx_meta, name);
+	    n_elements += ggml_nelements(t);
+	    n_bytes    += ggml_nbytes(t);
+	}
 
-        LLAMA_LOG_INFO("%s: loaded meta data with %d key-value pairs and %d tensors from %s (version %s)\n",
-                __func__, n_kv, n_tensors, fname.c_str(), llama_file_version_name(fver));
+	LLAMA_LOG_INFO("%s: loaded meta data with %d key-value pairs and %d tensors from %s (version %s)\n",
+		__func__, n_kv, n_tensors, fname.c_str(), llama_file_version_name(fver));
 
-        // determine file type based on the number of tensors for each quantization and print meta data
-        // TODO: make optional
-        {
-            std::map<enum ggml_type, uint32_t> n_type;
+	// determine file type based on the number of tensors for each quantization and print meta data
+	// TODO: make optional
+	{
+	    std::map<enum ggml_type, uint32_t> n_type;
 
-            uint32_t n_type_max = 0;
-            enum ggml_type type_max = GGML_TYPE_F32;
+	    uint32_t n_type_max = 0;
+	    enum ggml_type type_max = GGML_TYPE_F32;
 
-            for (int i = 0; i < n_tensors; i++) {
-                const char * name = gguf_get_tensor_name(ctx_gguf, i);
-                struct ggml_tensor * meta = ggml_get_tensor(ctx_meta, name);
+	    for (int i = 0; i < n_tensors; i++) {
+		const char * name = gguf_get_tensor_name(ctx_gguf, i);
+		struct ggml_tensor * meta = ggml_get_tensor(ctx_meta, name);
 
-                n_type[meta->type]++;
+		n_type[meta->type]++;
 
-                if (n_type_max < n_type[meta->type]) {
-                    n_type_max = n_type[meta->type];
-                    type_max   = meta->type;
-                }
+		if (n_type_max < n_type[meta->type]) {
+		    n_type_max = n_type[meta->type];
+		    type_max   = meta->type;
+		}
 
-                LLAMA_LOG_INFO("%s: - tensor %4d: %32s %-8s [ %s ]\n", __func__, i, name, ggml_type_name(meta->type), llama_format_tensor_shape(meta).c_str());
-            }
+		LLAMA_LOG_INFO("%s: - tensor %4d: %32s %-8s [ %s ]\n", __func__, i, name, ggml_type_name(meta->type), llama_format_tensor_shape(meta).c_str());
+	    }
 
-            switch (type_max) {
-                case GGML_TYPE_F32:  ftype = LLAMA_FTYPE_ALL_F32;       break;
-                case GGML_TYPE_F16:  ftype = LLAMA_FTYPE_MOSTLY_F16;    break;
-                case GGML_TYPE_Q4_0: ftype = LLAMA_FTYPE_MOSTLY_Q4_0;   break;
-                case GGML_TYPE_Q4_1: ftype = LLAMA_FTYPE_MOSTLY_Q4_1;   break;
-                case GGML_TYPE_Q5_0: ftype = LLAMA_FTYPE_MOSTLY_Q5_0;   break;
-                case GGML_TYPE_Q5_1: ftype = LLAMA_FTYPE_MOSTLY_Q5_1;   break;
-                case GGML_TYPE_Q8_0: ftype = LLAMA_FTYPE_MOSTLY_Q8_0;   break;
-                case GGML_TYPE_Q2_K: ftype = LLAMA_FTYPE_MOSTLY_Q2_K;   break;
-                case GGML_TYPE_Q3_K: ftype = LLAMA_FTYPE_MOSTLY_Q3_K_M; break;
-                case GGML_TYPE_Q4_K: ftype = LLAMA_FTYPE_MOSTLY_Q4_K_M; break;
-                case GGML_TYPE_Q5_K: ftype = LLAMA_FTYPE_MOSTLY_Q5_K_M; break;
-                case GGML_TYPE_Q6_K: ftype = LLAMA_FTYPE_MOSTLY_Q6_K;   break;
-                default:
-                    {
-                        LLAMA_LOG_WARN("%s: unknown type %s\n", __func__, ggml_type_name(type_max));
-                        ftype = LLAMA_FTYPE_ALL_F32;
-                    } break;
-            }
+	    switch (type_max) {
+		case GGML_TYPE_F32:  ftype = LLAMA_FTYPE_ALL_F32;       break;
+		case GGML_TYPE_F16:  ftype = LLAMA_FTYPE_MOSTLY_F16;    break;
+		case GGML_TYPE_Q4_0: ftype = LLAMA_FTYPE_MOSTLY_Q4_0;   break;
+		case GGML_TYPE_Q4_1: ftype = LLAMA_FTYPE_MOSTLY_Q4_1;   break;
+		case GGML_TYPE_Q5_0: ftype = LLAMA_FTYPE_MOSTLY_Q5_0;   break;
+		case GGML_TYPE_Q5_1: ftype = LLAMA_FTYPE_MOSTLY_Q5_1;   break;
+		case GGML_TYPE_Q8_0: ftype = LLAMA_FTYPE_MOSTLY_Q8_0;   break;
+		case GGML_TYPE_Q2_K: ftype = LLAMA_FTYPE_MOSTLY_Q2_K;   break;
+		case GGML_TYPE_Q3_K: ftype = LLAMA_FTYPE_MOSTLY_Q3_K_M; break;
+		case GGML_TYPE_Q4_K: ftype = LLAMA_FTYPE_MOSTLY_Q4_K_M; break;
+		case GGML_TYPE_Q5_K: ftype = LLAMA_FTYPE_MOSTLY_Q5_K_M; break;
+		case GGML_TYPE_Q6_K: ftype = LLAMA_FTYPE_MOSTLY_Q6_K;   break;
+		default:
+		    {
+			LLAMA_LOG_WARN("%s: unknown type %s\n", __func__, ggml_type_name(type_max));
+			ftype = LLAMA_FTYPE_ALL_F32;
+		    } break;
+	    }
 
-            // this is a way to mark that we have "guessed" the file type
-            ftype = (llama_ftype) (ftype | LLAMA_FTYPE_GUESSED);
+	    // this is a way to mark that we have "guessed" the file type
+	    ftype = (llama_ftype) (ftype | LLAMA_FTYPE_GUESSED);
 
-            {
-                const int kid = gguf_find_key(ctx_gguf, "general.file_type");
-                if (kid >= 0) {
-                    ftype = (llama_ftype) gguf_get_val_u32(ctx_gguf, kid);
-                }
-            }
+	    {
+		const int kid = gguf_find_key(ctx_gguf, "general.file_type");
+		if (kid >= 0) {
+		    ftype = (llama_ftype) gguf_get_val_u32(ctx_gguf, kid);
+		}
+	    }
 
-            for (int i = 0; i < n_kv; i++) {
-                const char * name           = gguf_get_key(ctx_gguf, i);
-                const enum gguf_type type   = gguf_get_kv_type(ctx_gguf, i);
-                const std::string type_name =
-                    type == GGUF_TYPE_ARRAY
-                    ? format("%s[%s,%d]", gguf_type_name(type), gguf_type_name(gguf_get_arr_type(ctx_gguf, i)), gguf_get_arr_n(ctx_gguf, i))
-                    : gguf_type_name(type);
+	    for (int i = 0; i < n_kv; i++) {
+		const char * name           = gguf_get_key(ctx_gguf, i);
+		const enum gguf_type type   = gguf_get_kv_type(ctx_gguf, i);
+		const std::string type_name =
+		    type == GGUF_TYPE_ARRAY
+		    ? format("%s[%s,%d]", gguf_type_name(type), gguf_type_name(gguf_get_arr_type(ctx_gguf, i)), gguf_get_arr_n(ctx_gguf, i))
+		    : gguf_type_name(type);
 
-                std::string value          = gguf_kv_to_str(ctx_gguf, i);
-                const size_t MAX_VALUE_LEN = 40;
-                if (value.size() > MAX_VALUE_LEN) {
-                    value = format("%s...", value.substr(0, MAX_VALUE_LEN - 3).c_str());
-                }
-                replace_all(value, "\n", "\\n");
+		std::string value          = gguf_kv_to_str(ctx_gguf, i);
+		const size_t MAX_VALUE_LEN = 40;
+		if (value.size() > MAX_VALUE_LEN) {
+		    value = format("%s...", value.substr(0, MAX_VALUE_LEN - 3).c_str());
+		}
+		replace_all(value, "\n", "\\n");
 
-                LLAMA_LOG_INFO("%s: - kv %3d: %42s %-16s = %s\n", __func__, i, name, type_name.c_str(), value.c_str());
-            }
+		LLAMA_LOG_INFO("%s: - kv %3d: %42s %-16s = %s\n", __func__, i, name, type_name.c_str(), value.c_str());
+	    }
 
-            // print type counts
-            for (auto & kv : n_type) {
-                if (kv.second == 0) {
-                    continue;
-                }
+	    // print type counts
+	    for (auto & kv : n_type) {
+		if (kv.second == 0) {
+		    continue;
+		}
 
-                LLAMA_LOG_INFO("%s: - type %4s: %4d tensors\n", __func__, ggml_type_name(kv.first), kv.second);
-            }
-        }
+		LLAMA_LOG_INFO("%s: - type %4s: %4d tensors\n", __func__, ggml_type_name(kv.first), kv.second);
+	    }
+	}
 
-        if (!llama_mmap::SUPPORTED) {
-            LLAMA_LOG_WARN("%s: mmap is not supported on this platform\n", __func__);
-            use_mmap = false;
-        }
+	if (!llama_mmap::SUPPORTED) {
+	    LLAMA_LOG_WARN("%s: mmap is not supported on this platform\n", __func__);
+	    use_mmap = false;
+	}
 
-        this->use_mmap = use_mmap;
+	this->use_mmap = use_mmap;
     }
 
     ~llama_model_loader() {
-        if (ctx_gguf) {
-            gguf_free(ctx_gguf);
-        }
-        if (ctx_meta) {
-            ggml_free(ctx_meta);
-        }
+	if (ctx_gguf) {
+	    gguf_free(ctx_gguf);
+	}
+	if (ctx_meta) {
+	    ggml_free(ctx_meta);
+	}
     }
 
     std::string get_arch_name() const {
-        const auto kv = LLM_KV(LLM_ARCH_UNKNOWN);
+	const auto kv = LLM_KV(LLM_ARCH_UNKNOWN);
 
-        std::string arch_name;
-        GGUF_GET_KEY(ctx_gguf, arch_name, gguf_get_val_str, GGUF_TYPE_STRING, false, kv(LLM_KV_GENERAL_ARCHITECTURE));
+	std::string arch_name;
+	GGUF_GET_KEY(ctx_gguf, arch_name, gguf_get_val_str, GGUF_TYPE_STRING, false, kv(LLM_KV_GENERAL_ARCHITECTURE));
 
-        return arch_name;
+	return arch_name;
     }
 
     enum llm_arch get_arch() const {
-        const std::string arch_name = get_arch_name();
+	const std::string arch_name = get_arch_name();
 
-        return llm_arch_from_string(arch_name);
+	return llm_arch_from_string(arch_name);
     }
 
     const char * get_tensor_name(int i) const {
-        return gguf_get_tensor_name(ctx_gguf, i);
+	return gguf_get_tensor_name(ctx_gguf, i);
     }
 
     struct ggml_tensor * get_tensor_meta(int i) const {
-        return ggml_get_tensor(ctx_meta, get_tensor_name(i));
+	return ggml_get_tensor(ctx_meta, get_tensor_name(i));
     }
 
     void calc_sizes(size_t & ctx_size_p, size_t & mmapped_size_p) const {
-        ctx_size_p     = 0;
-        mmapped_size_p = 0;
+	ctx_size_p     = 0;
+	mmapped_size_p = 0;
 
-        for (int i = 0; i < n_tensors; i++) {
-            struct ggml_tensor * meta = get_tensor_meta(i);
-            ctx_size_p += sizeof(struct ggml_tensor) + GGML_OBJECT_SIZE;
-            (use_mmap ? mmapped_size_p : ctx_size_p) += ggml_nbytes_pad(meta);
-        }
+	for (int i = 0; i < n_tensors; i++) {
+	    struct ggml_tensor * meta = get_tensor_meta(i);
+	    ctx_size_p += sizeof(struct ggml_tensor) + GGML_OBJECT_SIZE;
+	    (use_mmap ? mmapped_size_p : ctx_size_p) += ggml_nbytes_pad(meta);
+	}
     }
 
     struct ggml_tensor * create_tensor_for(struct ggml_context * ctx, struct ggml_tensor * meta, ggml_backend_type backend) {
-        if (backend != GGML_BACKEND_CPU) {
-            ggml_set_no_alloc(ctx, true);
-        }
+	if (backend != GGML_BACKEND_CPU) {
+	    ggml_set_no_alloc(ctx, true);
+	}
 
-        struct ggml_tensor * tensor = ggml_dup_tensor(ctx, meta);
-        tensor->backend = backend; // TODO: ggml_set_backend
-        ggml_set_name(tensor, ggml_get_name(meta));
+	struct ggml_tensor * tensor = ggml_dup_tensor(ctx, meta);
+	tensor->backend = backend; // TODO: ggml_set_backend
+	ggml_set_name(tensor, ggml_get_name(meta));
 
-        if (backend != GGML_BACKEND_CPU) {
-            ggml_set_no_alloc(ctx, use_mmap);
-        }
+	if (backend != GGML_BACKEND_CPU) {
+	    ggml_set_no_alloc(ctx, use_mmap);
+	}
 
-        n_created++;
+	n_created++;
 
-        return tensor;
+	return tensor;
     }
 
     struct ggml_tensor * create_tensor(struct ggml_context * ctx, const std::string & name, const std::vector<int64_t> & ne, ggml_backend_type backend) {
-        struct ggml_tensor * cur = ggml_get_tensor(ctx_meta, name.c_str());
+	struct ggml_tensor * cur = ggml_get_tensor(ctx_meta, name.c_str());
 
-        if (cur == NULL) {
-            throw std::runtime_error(format("%s: tensor '%s' not found", __func__, name.c_str()));
-        }
+	if (cur == NULL) {
+	    throw std::runtime_error(format("%s: tensor '%s' not found", __func__, name.c_str()));
+	}
 
-        if (backend == GGML_BACKEND_GPU_SPLIT) {
-            if (ne.size() == 1) {
-                throw std::runtime_error(format("%s: 1-dimensional tensor '%s' cannot be split on the GPU", __func__, name.c_str()));
-            }
-        }
+	if (backend == GGML_BACKEND_GPU_SPLIT) {
+	    if (ne.size() == 1) {
+		throw std::runtime_error(format("%s: 1-dimensional tensor '%s' cannot be split on the GPU", __func__, name.c_str()));
+	    }
+	}
 
-        {
-            bool is_ok = true;
-            for (size_t i = 0; i < ne.size(); ++i) {
-                if (ne[i] != cur->ne[i]) {
-                    is_ok = false;
-                    break;
-                }
-            }
-            if (!is_ok) {
-                throw std::runtime_error(
-                        format("%s: tensor '%s' has wrong shape; expected %s, got %s",
-                            __func__, name.c_str(),
-                            llama_format_tensor_shape(ne).c_str(),
-                            llama_format_tensor_shape(cur).c_str()));
-            }
-        }
+	{
+	    bool is_ok = true;
+	    for (size_t i = 0; i < ne.size(); ++i) {
+		if (ne[i] != cur->ne[i]) {
+		    is_ok = false;
+		    break;
+		}
+	    }
+	    if (!is_ok) {
+		throw std::runtime_error(
+			format("%s: tensor '%s' has wrong shape; expected %s, got %s",
+			    __func__, name.c_str(),
+			    llama_format_tensor_shape(ne).c_str(),
+			    llama_format_tensor_shape(cur).c_str()));
+	    }
+	}
 
-        return create_tensor_for(ctx, cur, backend);
+	return create_tensor_for(ctx, cur, backend);
     }
 
     void done_getting_tensors() const {
-        if (n_created != n_tensors) {
-            throw std::runtime_error(format("%s: wrong number of tensors; expected %d, got %d", __func__, n_tensors, n_created));
-        }
+	if (n_created != n_tensors) {
+	    throw std::runtime_error(format("%s: wrong number of tensors; expected %d, got %d", __func__, n_tensors, n_created));
+	}
     }
 
     size_t file_offset(const char * name) const {
-        const int idx = gguf_find_tensor(ctx_gguf, name);
+	const int idx = gguf_find_tensor(ctx_gguf, name);
 
-        if (idx < 0) {
-            throw std::runtime_error(format("%s: tensor '%s' not found in the file", __func__, name));
-        }
+	if (idx < 0) {
+	    throw std::runtime_error(format("%s: tensor '%s' not found in the file", __func__, name));
+	}
 
-        return gguf_get_data_offset(ctx_gguf) + gguf_get_tensor_offset(ctx_gguf, idx);
+	return gguf_get_data_offset(ctx_gguf) + gguf_get_tensor_offset(ctx_gguf, idx);
     }
 
     void load_data_for(struct ggml_tensor * cur) const {
-        const size_t offs = file_offset(ggml_get_name(cur));
+	const size_t offs = file_offset(ggml_get_name(cur));
 
-        if (use_mmap) {
-            cur->data = (uint8_t *) mapping->addr + offs;
-        } else {
-            file.seek(offs, SEEK_SET);
-            file.read_raw(cur->data, ggml_nbytes(cur));
-        }
+	if (use_mmap) {
+	    cur->data = (uint8_t *) mapping->addr + offs;
+	} else {
+	    file.seek(offs, SEEK_SET);
+	    file.read_raw(cur->data, ggml_nbytes(cur));
+	}
     }
 
     void load_all_data(struct ggml_context * ctx, llama_progress_callback progress_callback, void * progress_callback_user_data, llama_mlock * lmlock) {
-        size_t size_data = 0;
-        size_t size_lock = 0;
-        size_t size_pref = 0; // prefetch
+	size_t size_data = 0;
+	size_t size_lock = 0;
+	size_t size_pref = 0; // prefetch
 
-        for (int i = 0; i < gguf_get_n_tensors(ctx_gguf); i++) {
-            struct ggml_tensor * cur = ggml_get_tensor(ctx, gguf_get_tensor_name(ctx_gguf, i));
-            size_data += ggml_nbytes(cur);
-            if (cur->backend == GGML_BACKEND_CPU) {
-                size_pref += ggml_nbytes(cur);
-            }
-        }
+	for (int i = 0; i < gguf_get_n_tensors(ctx_gguf); i++) {
+	    struct ggml_tensor * cur = ggml_get_tensor(ctx, gguf_get_tensor_name(ctx_gguf, i));
+	    size_data += ggml_nbytes(cur);
+	    if (cur->backend == GGML_BACKEND_CPU) {
+		size_pref += ggml_nbytes(cur);
+	    }
+	}
 
-        if (use_mmap) {
-            mapping.reset(new llama_mmap(&file, size_pref, ggml_is_numa()));
-            if (lmlock) {
-                lmlock->init(mapping->addr);
-            }
-        }
+	if (use_mmap) {
+	    mapping.reset(new llama_mmap(&file, size_pref, ggml_is_numa()));
+	    if (lmlock) {
+		lmlock->init(mapping->addr);
+	    }
+	}
 
-        size_t done_size = 0;
-        for (int i = 0; i < gguf_get_n_tensors(ctx_gguf); i++) {
-            struct ggml_tensor * cur = ggml_get_tensor(ctx, gguf_get_tensor_name(ctx_gguf, i));
-            GGML_ASSERT(cur); // unused tensors should have been caught by load_data already
+	size_t done_size = 0;
+	for (int i = 0; i < gguf_get_n_tensors(ctx_gguf); i++) {
+	    struct ggml_tensor * cur = ggml_get_tensor(ctx, gguf_get_tensor_name(ctx_gguf, i));
+	    GGML_ASSERT(cur); // unused tensors should have been caught by load_data already
 
-            if (progress_callback) {
-                progress_callback((float) done_size / size_data, progress_callback_user_data);
-            }
+	    if (progress_callback) {
+		progress_callback((float) done_size / size_data, progress_callback_user_data);
+	    }
 
-            // allocate temp buffer if not using mmap
-            if (!use_mmap && cur->data == NULL) {
-                GGML_ASSERT(cur->backend != GGML_BACKEND_CPU);
-                #ifdef GGML_USE_CPU_HBM
-                cur->data = (uint8_t*)hbw_malloc(ggml_nbytes(cur));
-                #else
-                cur->data = (uint8_t*)malloc(ggml_nbytes(cur));
-                #endif
-            }
+	    // allocate temp buffer if not using mmap
+	    if (!use_mmap && cur->data == NULL) {
+		GGML_ASSERT(cur->backend != GGML_BACKEND_CPU);
+		#ifdef GGML_USE_CPU_HBM
+		cur->data = (uint8_t*)hbw_malloc(ggml_nbytes(cur));
+		#else
+		cur->data = (uint8_t*)malloc(ggml_nbytes(cur));
+		#endif
+	    }
 
-            load_data_for(cur);
+	    load_data_for(cur);
 
-            switch (cur->backend) {
-                case GGML_BACKEND_CPU:
-                    if (use_mmap && lmlock) {
-                        size_lock += ggml_nbytes(cur);
-                        lmlock->grow_to(size_lock);
-                    }
-                    break;
+	    switch (cur->backend) {
+		case GGML_BACKEND_CPU:
+		    if (use_mmap && lmlock) {
+			size_lock += ggml_nbytes(cur);
+			lmlock->grow_to(size_lock);
+		    }
+		    break;
 #ifdef GGML_USE_CUBLAS
-                case GGML_BACKEND_GPU:
+		case GGML_BACKEND_GPU:
 		  
-                case GGML_BACKEND_GPU_SPLIT:
-                    // old code:
-                    //ggml_cuda_transform_tensor(lt.data, lt.ggml_tensor);
+		case GGML_BACKEND_GPU_SPLIT:
+		    // old code:
+		    //ggml_cuda_transform_tensor(lt.data, lt.ggml_tensor);
 
-                    // TODO: test if this works !!
-                    ggml_cuda_transform_tensor(cur->data, cur);
-                    if (!use_mmap) {
-                        free(cur->data);
-                    }
-                    break;
+		    // TODO: test if this works !!
+		    ggml_cuda_transform_tensor(cur->data, cur);
+		    if (!use_mmap) {
+			free(cur->data);
+		    }
+		    break;
 #elif defined(GGML_USE_CLBLAST)
-                case GGML_BACKEND_GPU:
-                    ggml_cl_transform_tensor(cur->data, cur);
-                    if (!use_mmap) {
-                        free(cur->data);
-                    }
-                    break;
+		case GGML_BACKEND_GPU:
+		    ggml_cl_transform_tensor(cur->data, cur);
+		    if (!use_mmap) {
+			free(cur->data);
+		    }
+		    break;
 #endif
-                default:
-                    continue;
-            }
+		default:
+		    continue;
+	    }
 
-            done_size += ggml_nbytes(cur);
-        }
+	    done_size += ggml_nbytes(cur);
+	}
     }
 };
 
@@ -2104,69 +2104,69 @@ struct llama_model_loader {
 static std::string llama_model_arch_name(llm_arch arch) {
     auto it = LLM_ARCH_NAMES.find(arch);
     if (it == LLM_ARCH_NAMES.end()) {
-        return "unknown";
+	return "unknown";
     }
     return it->second;
 }
 
 static std::string llama_model_ftype_name(llama_ftype ftype) {
     if (ftype & LLAMA_FTYPE_GUESSED) {
-        return llama_model_ftype_name((enum llama_ftype) (ftype & ~LLAMA_FTYPE_GUESSED)) + " (guessed)";
+	return llama_model_ftype_name((enum llama_ftype) (ftype & ~LLAMA_FTYPE_GUESSED)) + " (guessed)";
     }
 
     switch (ftype) {
-        case LLAMA_FTYPE_ALL_F32:     return "all F32";
-        case LLAMA_FTYPE_MOSTLY_F16:  return "mostly F16";
-        case LLAMA_FTYPE_MOSTLY_Q4_0: return "mostly Q4_0";
-        case LLAMA_FTYPE_MOSTLY_Q4_1: return "mostly Q4_1";
-        case LLAMA_FTYPE_MOSTLY_Q4_1_SOME_F16:
-                                      return "mostly Q4_1, some F16";
-        case LLAMA_FTYPE_MOSTLY_Q5_0: return "mostly Q5_0";
-        case LLAMA_FTYPE_MOSTLY_Q5_1: return "mostly Q5_1";
-        case LLAMA_FTYPE_MOSTLY_Q8_0: return "mostly Q8_0";
+	case LLAMA_FTYPE_ALL_F32:     return "all F32";
+	case LLAMA_FTYPE_MOSTLY_F16:  return "mostly F16";
+	case LLAMA_FTYPE_MOSTLY_Q4_0: return "mostly Q4_0";
+	case LLAMA_FTYPE_MOSTLY_Q4_1: return "mostly Q4_1";
+	case LLAMA_FTYPE_MOSTLY_Q4_1_SOME_F16:
+				      return "mostly Q4_1, some F16";
+	case LLAMA_FTYPE_MOSTLY_Q5_0: return "mostly Q5_0";
+	case LLAMA_FTYPE_MOSTLY_Q5_1: return "mostly Q5_1";
+	case LLAMA_FTYPE_MOSTLY_Q8_0: return "mostly Q8_0";
 
-        // K-quants
-        case LLAMA_FTYPE_MOSTLY_Q2_K:   return "mostly Q2_K";
-        case LLAMA_FTYPE_MOSTLY_Q3_K_S: return "mostly Q3_K - Small";
-        case LLAMA_FTYPE_MOSTLY_Q3_K_M: return "mostly Q3_K - Medium";
-        case LLAMA_FTYPE_MOSTLY_Q3_K_L: return "mostly Q3_K - Large";
-        case LLAMA_FTYPE_MOSTLY_Q4_K_S: return "mostly Q4_K - Small";
-        case LLAMA_FTYPE_MOSTLY_Q4_K_M: return "mostly Q4_K - Medium";
-        case LLAMA_FTYPE_MOSTLY_Q5_K_S: return "mostly Q5_K - Small";
-        case LLAMA_FTYPE_MOSTLY_Q5_K_M: return "mostly Q5_K - Medium";
-        case LLAMA_FTYPE_MOSTLY_Q6_K:   return "mostly Q6_K";
+	// K-quants
+	case LLAMA_FTYPE_MOSTLY_Q2_K:   return "mostly Q2_K";
+	case LLAMA_FTYPE_MOSTLY_Q3_K_S: return "mostly Q3_K - Small";
+	case LLAMA_FTYPE_MOSTLY_Q3_K_M: return "mostly Q3_K - Medium";
+	case LLAMA_FTYPE_MOSTLY_Q3_K_L: return "mostly Q3_K - Large";
+	case LLAMA_FTYPE_MOSTLY_Q4_K_S: return "mostly Q4_K - Small";
+	case LLAMA_FTYPE_MOSTLY_Q4_K_M: return "mostly Q4_K - Medium";
+	case LLAMA_FTYPE_MOSTLY_Q5_K_S: return "mostly Q5_K - Small";
+	case LLAMA_FTYPE_MOSTLY_Q5_K_M: return "mostly Q5_K - Medium";
+	case LLAMA_FTYPE_MOSTLY_Q6_K:   return "mostly Q6_K";
 
-        default: return "unknown, may not work";
+	default: return "unknown, may not work";
     }
 }
 
 static const char * llama_model_type_name(e_model type) {
     switch (type) {
-        case MODEL_1B:  return "1B";
-        case MODEL_3B:  return "3B";
-        case MODEL_7B:  return "7B";
-        case MODEL_8B:  return "8B";
-        case MODEL_13B: return "13B";
-        case MODEL_15B: return "15B";
-        case MODEL_30B: return "30B";
-        case MODEL_34B: return "34B";
-        case MODEL_40B: return "40B";
-        case MODEL_65B: return "65B";
-        case MODEL_70B: return "70B";
-        default:        return "?B";
+	case MODEL_1B:  return "1B";
+	case MODEL_3B:  return "3B";
+	case MODEL_7B:  return "7B";
+	case MODEL_8B:  return "8B";
+	case MODEL_13B: return "13B";
+	case MODEL_15B: return "15B";
+	case MODEL_30B: return "30B";
+	case MODEL_34B: return "34B";
+	case MODEL_40B: return "40B";
+	case MODEL_65B: return "65B";
+	case MODEL_70B: return "70B";
+	default:        return "?B";
     }
 }
 
 static void llm_load_arch(llama_model_loader & ml, llama_model & model) {
     model.arch = ml.get_arch();
     if (model.arch == LLM_ARCH_UNKNOWN) {
-        throw std::runtime_error("unknown model architecture: '" + ml.get_arch_name() + "'");
+	throw std::runtime_error("unknown model architecture: '" + ml.get_arch_name() + "'");
     }
 }
 
 static void llm_load_hparams(
-        llama_model_loader & ml,
-        llama_model & model) {
+	llama_model_loader & ml,
+	llama_model & model) {
     struct gguf_context * ctx = ml.ctx_gguf;
 
     const auto kv = LLM_KV(model.arch);
@@ -2175,13 +2175,13 @@ static void llm_load_hparams(
 
     // get metadata as string
     for (int i = 0; i < gguf_get_n_kv(ctx); i++) {
-        enum gguf_type type = gguf_get_kv_type(ctx, i);
-        if (type == GGUF_TYPE_ARRAY) {
-            continue;
-        }
-        const char * name = gguf_get_key(ctx, i);
-        const std::string value = gguf_kv_to_str(ctx, i);
-        model.gguf_kv.emplace(name, value);
+	enum gguf_type type = gguf_get_kv_type(ctx, i);
+	if (type == GGUF_TYPE_ARRAY) {
+	    continue;
+	}
+	const char * name = gguf_get_key(ctx, i);
+	const std::string value = gguf_kv_to_str(ctx, i);
+	model.gguf_kv.emplace(name, value);
     }
 
     // get general kv
@@ -2201,11 +2201,11 @@ static void llm_load_hparams(
 
     hparams.rope_finetuned = false;
     GGUF_GET_KEY(ctx, hparams.rope_finetuned, gguf_get_val_bool, GGUF_TYPE_BOOL, false,
-                 kv(LLM_KV_ROPE_SCALING_FINETUNED));
+		 kv(LLM_KV_ROPE_SCALING_FINETUNED));
 
     hparams.n_yarn_orig_ctx = hparams.n_ctx_train;
     GGUF_GET_KEY(ctx, hparams.n_yarn_orig_ctx, gguf_get_val_u32, GGUF_TYPE_UINT32, false,
-                 kv(LLM_KV_ROPE_SCALING_ORIG_CTX_LEN));
+		 kv(LLM_KV_ROPE_SCALING_ORIG_CTX_LEN));
 
     // rope_freq_base (optional)
     hparams.rope_freq_base_train = 10000.0f;
@@ -2220,125 +2220,125 @@ static void llm_load_hparams(
     float ropescale = 0.0f;
     GGUF_GET_KEY(ctx, ropescale, gguf_get_val_f32, GGUF_TYPE_FLOAT32, false, kv(LLM_KV_ROPE_SCALING_FACTOR));
     if (ropescale == 0.0f) { // try the old key name
-        GGUF_GET_KEY(ctx, ropescale, gguf_get_val_f32, GGUF_TYPE_FLOAT32, false, kv(LLM_KV_ROPE_SCALE_LINEAR));
+	GGUF_GET_KEY(ctx, ropescale, gguf_get_val_f32, GGUF_TYPE_FLOAT32, false, kv(LLM_KV_ROPE_SCALE_LINEAR));
     }
     hparams.rope_freq_scale_train = ropescale == 0.0f ? 1.0f : 1.0f/ropescale;
 
     // sanity check for n_rot (optional)
     {
-        hparams.n_rot = hparams.n_embd / hparams.n_head;
+	hparams.n_rot = hparams.n_embd / hparams.n_head;
 
-        GGUF_GET_KEY(ctx, hparams.n_rot, gguf_get_val_u32, GGUF_TYPE_UINT32, false, kv(LLM_KV_ROPE_DIMENSION_COUNT));
+	GGUF_GET_KEY(ctx, hparams.n_rot, gguf_get_val_u32, GGUF_TYPE_UINT32, false, kv(LLM_KV_ROPE_DIMENSION_COUNT));
 
-        if (model.arch == LLM_ARCH_LLAMA || model.arch == LLM_ARCH_FALCON) {
-            if (hparams.n_rot != hparams.n_embd / hparams.n_head) {
-                throw std::runtime_error(format("invalid n_rot: %u, expected %u", hparams.n_rot, hparams.n_embd / hparams.n_head));
-            }
-        }
-        // gpt-neox n_rot = rotary_pct * (n_embd / n_head)
-        // gpt-j n_rot = rotary_dim
+	if (model.arch == LLM_ARCH_LLAMA || model.arch == LLM_ARCH_FALCON) {
+	    if (hparams.n_rot != hparams.n_embd / hparams.n_head) {
+		throw std::runtime_error(format("invalid n_rot: %u, expected %u", hparams.n_rot, hparams.n_embd / hparams.n_head));
+	    }
+	}
+	// gpt-neox n_rot = rotary_pct * (n_embd / n_head)
+	// gpt-j n_rot = rotary_dim
     }
 
     // arch-specific KVs
     switch (model.arch) {
-        case LLM_ARCH_LLAMA:
-            {
-                GGUF_GET_KEY(ctx, hparams.f_norm_rms_eps, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_LAYERNORM_RMS_EPS));
+	case LLM_ARCH_LLAMA:
+	    {
+		GGUF_GET_KEY(ctx, hparams.f_norm_rms_eps, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_LAYERNORM_RMS_EPS));
 
-                switch (hparams.n_layer) {
-                    case 26: model.type = e_model::MODEL_3B; break;
-                    case 32: model.type = e_model::MODEL_7B; break;
-                    case 40: model.type = e_model::MODEL_13B; break;
-                    case 48: model.type = e_model::MODEL_34B; break;
-                    case 60: model.type = e_model::MODEL_30B; break;
-                    case 80: model.type = hparams.n_head == hparams.n_head_kv ? e_model::MODEL_65B : e_model::MODEL_70B; break;
-                    default: model.type = e_model::MODEL_UNKNOWN;
-                }
-            } break;
-        case LLM_ARCH_FALCON:
-            {
-                GGUF_GET_KEY(ctx, hparams.f_norm_eps, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_LAYERNORM_EPS));
+		switch (hparams.n_layer) {
+		    case 26: model.type = e_model::MODEL_3B; break;
+		    case 32: model.type = e_model::MODEL_7B; break;
+		    case 40: model.type = e_model::MODEL_13B; break;
+		    case 48: model.type = e_model::MODEL_34B; break;
+		    case 60: model.type = e_model::MODEL_30B; break;
+		    case 80: model.type = hparams.n_head == hparams.n_head_kv ? e_model::MODEL_65B : e_model::MODEL_70B; break;
+		    default: model.type = e_model::MODEL_UNKNOWN;
+		}
+	    } break;
+	case LLM_ARCH_FALCON:
+	    {
+		GGUF_GET_KEY(ctx, hparams.f_norm_eps, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_LAYERNORM_EPS));
 
-                switch (hparams.n_layer) {
-                    case 32: model.type = e_model::MODEL_7B; break;
-                    case 60: model.type = e_model::MODEL_40B; break;
-                    default: model.type = e_model::MODEL_UNKNOWN;
-                }
-            } break;
-        case LLM_ARCH_BAICHUAN:
-            {
-                GGUF_GET_KEY(ctx, hparams.f_norm_rms_eps, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_LAYERNORM_RMS_EPS));
-                switch (hparams.n_layer) {
-                    case 32: model.type = e_model::MODEL_7B; break;
-                    case 40: model.type = e_model::MODEL_13B; break;
-                    default: model.type = e_model::MODEL_UNKNOWN;
-                }
-            } break;
-        case LLM_ARCH_STARCODER:
-            {
-                GGUF_GET_KEY(ctx, hparams.f_norm_eps, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_LAYERNORM_EPS));
-                switch (hparams.n_layer) {
-                    case 24: model.type = e_model::MODEL_1B; break;
-                    case 36: model.type = e_model::MODEL_3B; break;
-                    case 42: model.type = e_model::MODEL_7B; break;
-                    case 40: model.type = e_model::MODEL_15B; break;
-                    default: model.type = e_model::MODEL_UNKNOWN;
-                }
-            } break;
-        case LLM_ARCH_PERSIMMON:
-            {
-                GGUF_GET_KEY(ctx, hparams.f_norm_eps, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_LAYERNORM_EPS));
-                switch (hparams.n_layer) {
-                    case 36: model.type = e_model::MODEL_8B; break;
-                    default: model.type = e_model::MODEL_UNKNOWN;
-                }
-            } break;
-        case LLM_ARCH_REFACT:
-            {
-                GGUF_GET_KEY(ctx, hparams.f_norm_rms_eps, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_LAYERNORM_RMS_EPS));
-                switch (hparams.n_layer) {
-                    case 32: model.type = e_model::MODEL_1B; break;
-                    default: model.type = e_model::MODEL_UNKNOWN;
-                }
-            } break;
-        case LLM_ARCH_BLOOM:
-            {
-                GGUF_GET_KEY(ctx, hparams.f_norm_eps, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_LAYERNORM_EPS));
+		switch (hparams.n_layer) {
+		    case 32: model.type = e_model::MODEL_7B; break;
+		    case 60: model.type = e_model::MODEL_40B; break;
+		    default: model.type = e_model::MODEL_UNKNOWN;
+		}
+	    } break;
+	case LLM_ARCH_BAICHUAN:
+	    {
+		GGUF_GET_KEY(ctx, hparams.f_norm_rms_eps, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_LAYERNORM_RMS_EPS));
+		switch (hparams.n_layer) {
+		    case 32: model.type = e_model::MODEL_7B; break;
+		    case 40: model.type = e_model::MODEL_13B; break;
+		    default: model.type = e_model::MODEL_UNKNOWN;
+		}
+	    } break;
+	case LLM_ARCH_STARCODER:
+	    {
+		GGUF_GET_KEY(ctx, hparams.f_norm_eps, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_LAYERNORM_EPS));
+		switch (hparams.n_layer) {
+		    case 24: model.type = e_model::MODEL_1B; break;
+		    case 36: model.type = e_model::MODEL_3B; break;
+		    case 42: model.type = e_model::MODEL_7B; break;
+		    case 40: model.type = e_model::MODEL_15B; break;
+		    default: model.type = e_model::MODEL_UNKNOWN;
+		}
+	    } break;
+	case LLM_ARCH_PERSIMMON:
+	    {
+		GGUF_GET_KEY(ctx, hparams.f_norm_eps, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_LAYERNORM_EPS));
+		switch (hparams.n_layer) {
+		    case 36: model.type = e_model::MODEL_8B; break;
+		    default: model.type = e_model::MODEL_UNKNOWN;
+		}
+	    } break;
+	case LLM_ARCH_REFACT:
+	    {
+		GGUF_GET_KEY(ctx, hparams.f_norm_rms_eps, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_LAYERNORM_RMS_EPS));
+		switch (hparams.n_layer) {
+		    case 32: model.type = e_model::MODEL_1B; break;
+		    default: model.type = e_model::MODEL_UNKNOWN;
+		}
+	    } break;
+	case LLM_ARCH_BLOOM:
+	    {
+		GGUF_GET_KEY(ctx, hparams.f_norm_eps, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_LAYERNORM_EPS));
 
-                switch (hparams.n_layer) {
-                    case 24: model.type = e_model::MODEL_1B; break;
-                    case 30:
-                        switch (hparams.n_embd) {
-                            case 2560: model.type = e_model::MODEL_3B; break;
-                            case 4096: model.type = e_model::MODEL_7B; break;
-                        } break;
-                }
-            } break;
-        case LLM_ARCH_MPT:
-            {
-                hparams.f_clamp_kqv = 0.0f;
+		switch (hparams.n_layer) {
+		    case 24: model.type = e_model::MODEL_1B; break;
+		    case 30:
+			switch (hparams.n_embd) {
+			    case 2560: model.type = e_model::MODEL_3B; break;
+			    case 4096: model.type = e_model::MODEL_7B; break;
+			} break;
+		}
+	    } break;
+	case LLM_ARCH_MPT:
+	    {
+		hparams.f_clamp_kqv = 0.0f;
 
-                GGUF_GET_KEY(ctx, hparams.f_norm_eps, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_LAYERNORM_EPS));
-                GGUF_GET_KEY(ctx, hparams.f_clamp_kqv, gguf_get_val_f32, GGUF_TYPE_FLOAT32, false, kv(LLM_KV_ATTENTION_CLAMP_KQV));
-                GGUF_GET_KEY(ctx, hparams.f_max_alibi_bias, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_MAX_ALIBI_BIAS));
+		GGUF_GET_KEY(ctx, hparams.f_norm_eps, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_LAYERNORM_EPS));
+		GGUF_GET_KEY(ctx, hparams.f_clamp_kqv, gguf_get_val_f32, GGUF_TYPE_FLOAT32, false, kv(LLM_KV_ATTENTION_CLAMP_KQV));
+		GGUF_GET_KEY(ctx, hparams.f_max_alibi_bias, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_MAX_ALIBI_BIAS));
 
-                switch (hparams.n_layer) {
-                    case 32: model.type = e_model::MODEL_7B; break;
-                    case 48: model.type = e_model::MODEL_30B; break;
-                    default: model.type = e_model::MODEL_UNKNOWN;
-                }
-            } break;
-        case LLM_ARCH_STABLELM:
-            {
-                GGUF_GET_KEY(ctx, hparams.f_norm_eps, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_LAYERNORM_EPS));
+		switch (hparams.n_layer) {
+		    case 32: model.type = e_model::MODEL_7B; break;
+		    case 48: model.type = e_model::MODEL_30B; break;
+		    default: model.type = e_model::MODEL_UNKNOWN;
+		}
+	    } break;
+	case LLM_ARCH_STABLELM:
+	    {
+		GGUF_GET_KEY(ctx, hparams.f_norm_eps, gguf_get_val_f32, GGUF_TYPE_FLOAT32, true, kv(LLM_KV_ATTENTION_LAYERNORM_EPS));
 
-                switch (hparams.n_layer) {
-                    case 32: model.type = e_model::MODEL_3B; break;
-                    default: model.type = e_model::MODEL_UNKNOWN;
-               }
-            } break;
+		switch (hparams.n_layer) {
+		    case 32: model.type = e_model::MODEL_3B; break;
+		    default: model.type = e_model::MODEL_UNKNOWN;
+	       }
+	    } break;
 
-        default: (void)0;
+	default: (void)0;
     }
 
     model.ftype = ml.ftype;
@@ -2349,8 +2349,8 @@ static std::vector<llama_vocab::id> llama_tokenize_internal(const llama_vocab &
 static llama_token llama_byte_to_token(const llama_vocab & vocab, uint8_t ch);
 
 static void llm_load_vocab(
-        llama_model_loader & ml,
-        llama_model & model) {
+	llama_model_loader & ml,
+	llama_model & model) {
     auto & vocab = model.vocab;
 
     struct gguf_context * ctx = ml.ctx_gguf;
@@ -2359,76 +2359,76 @@ static void llm_load_vocab(
 
     const int token_idx = gguf_find_key(ctx, kv(LLM_KV_TOKENIZER_LIST).c_str());
     if (token_idx == -1) {
-        throw std::runtime_error("cannot find tokenizer vocab in model file\n");
+	throw std::runtime_error("cannot find tokenizer vocab in model file\n");
     }
 
     const float * scores = nullptr;
     const int score_idx = gguf_find_key(ctx, kv(LLM_KV_TOKENIZER_SCORES).c_str());
     if (score_idx != -1) {
-        scores = (const float * ) gguf_get_arr_data(ctx, score_idx);
+	scores = (const float * ) gguf_get_arr_data(ctx, score_idx);
     }
 
     const int * toktypes = nullptr;
     const int toktype_idx = gguf_find_key(ctx, kv(LLM_KV_TOKENIZER_TOKEN_TYPE).c_str());
     if (toktype_idx != -1) {
-        toktypes = (const int * ) gguf_get_arr_data(ctx, toktype_idx);
+	toktypes = (const int * ) gguf_get_arr_data(ctx, toktype_idx);
     }
 
     // determine vocab type
     {
-        std::string tokenizer_name;
+	std::string tokenizer_name;
 
-        GGUF_GET_KEY(ctx, tokenizer_name, gguf_get_val_str, GGUF_TYPE_STRING, true, kv(LLM_KV_TOKENIZER_MODEL));
+	GGUF_GET_KEY(ctx, tokenizer_name, gguf_get_val_str, GGUF_TYPE_STRING, true, kv(LLM_KV_TOKENIZER_MODEL));
 
-        if (tokenizer_name == "llama") {
-            vocab.type = LLAMA_VOCAB_TYPE_SPM;
+	if (tokenizer_name == "llama") {
+	    vocab.type = LLAMA_VOCAB_TYPE_SPM;
 
-            // default special tokens
-            vocab.special_bos_id = 1;
-            vocab.special_eos_id = 2;
-            vocab.special_unk_id = 0;
-            vocab.special_sep_id = -1;
-            vocab.special_pad_id = -1;
-        } else if (tokenizer_name == "gpt2") {
-            vocab.type = LLAMA_VOCAB_TYPE_BPE;
+	    // default special tokens
+	    vocab.special_bos_id = 1;
+	    vocab.special_eos_id = 2;
+	    vocab.special_unk_id = 0;
+	    vocab.special_sep_id = -1;
+	    vocab.special_pad_id = -1;
+	} else if (tokenizer_name == "gpt2") {
+	    vocab.type = LLAMA_VOCAB_TYPE_BPE;
 
-            // read bpe merges and populate bpe ranks
-            const int merges_keyidx = gguf_find_key(ctx, kv(LLM_KV_TOKENIZER_MERGES).c_str());
-            if (merges_keyidx == -1) {
-                throw std::runtime_error("cannot find tokenizer merges in model file\n");
-            }
+	    // read bpe merges and populate bpe ranks
+	    const int merges_keyidx = gguf_find_key(ctx, kv(LLM_KV_TOKENIZER_MERGES).c_str());
+	    if (merges_keyidx == -1) {
+		throw std::runtime_error("cannot find tokenizer merges in model file\n");
+	    }
 
-            const int n_merges = gguf_get_arr_n(ctx, merges_keyidx);
+	    const int n_merges = gguf_get_arr_n(ctx, merges_keyidx);
 
-            for (int i = 0; i < n_merges; i++) {
-                const std::string word = gguf_get_arr_str(ctx, merges_keyidx, i);
-                GGML_ASSERT(codepoints_from_utf8(word).size() > 0);
+	    for (int i = 0; i < n_merges; i++) {
+		const std::string word = gguf_get_arr_str(ctx, merges_keyidx, i);
+		GGML_ASSERT(codepoints_from_utf8(word).size() > 0);
 
-                std::string first;
-                std::string second;
+		std::string first;
+		std::string second;
 
-                const size_t pos = word.find(' ', 1);
+		const size_t pos = word.find(' ', 1);
 
-                if (pos != std::string::npos) {
-                    first  = word.substr(0, pos);
-                    second = word.substr(pos + 1);
-                }
+		if (pos != std::string::npos) {
+		    first  = word.substr(0, pos);
+		    second = word.substr(pos + 1);
+		}
 
-                vocab.bpe_ranks.emplace(std::make_pair(first, second), i);
-            }
+		vocab.bpe_ranks.emplace(std::make_pair(first, second), i);
+	    }
 
-            // default special tokens
-            vocab.special_bos_id = 11;
-            vocab.special_eos_id = 11;
-            vocab.special_unk_id = -1;
-            vocab.special_sep_id = -1;
-            vocab.special_pad_id = -1;
-        } else {
-            LLAMA_LOG_WARN("%s: unknown tokenizer: '%s'", __func__, tokenizer_name.c_str());
-            LLAMA_LOG_WARN("%s: using default tokenizer: 'llama'", __func__);
+	    // default special tokens
+	    vocab.special_bos_id = 11;
+	    vocab.special_eos_id = 11;
+	    vocab.special_unk_id = -1;
+	    vocab.special_sep_id = -1;
+	    vocab.special_pad_id = -1;
+	} else {
+	    LLAMA_LOG_WARN("%s: unknown tokenizer: '%s'", __func__, tokenizer_name.c_str());
+	    LLAMA_LOG_WARN("%s: using default tokenizer: 'llama'", __func__);
 
-            vocab.type = LLAMA_VOCAB_TYPE_SPM;
-        }
+	    vocab.type = LLAMA_VOCAB_TYPE_SPM;
+	}
     }
 
     const uint32_t n_vocab = gguf_get_arr_n(ctx, token_idx);
@@ -2436,162 +2436,162 @@ static void llm_load_vocab(
     vocab.id_to_token.resize(n_vocab);
 
     for (uint32_t i = 0; i < n_vocab; i++) {
-        std::string word = gguf_get_arr_str(ctx, token_idx, i);
-        GGML_ASSERT(codepoints_from_utf8(word).size() > 0);
+	std::string word = gguf_get_arr_str(ctx, token_idx, i);
+	GGML_ASSERT(codepoints_from_utf8(word).size() > 0);
 
-        vocab.token_to_id[word] = i;
+	vocab.token_to_id[word] = i;
 
-        auto & token_data = vocab.id_to_token[i];
-        token_data.text  = std::move(word);
-        token_data.score = scores ? scores[i] : 0.0f;
-        token_data.type  = toktypes ? (llama_token_type) toktypes[i] : LLAMA_TOKEN_TYPE_NORMAL;
+	auto & token_data = vocab.id_to_token[i];
+	token_data.text  = std::move(word);
+	token_data.score = scores ? scores[i] : 0.0f;
+	token_data.type  = toktypes ? (llama_token_type) toktypes[i] : LLAMA_TOKEN_TYPE_NORMAL;
     }
     GGML_ASSERT(vocab.id_to_token.size() == vocab.token_to_id.size());
 
     // determine the newline token: LLaMA "<0x0A>" == 10 == '\n', Falcon 193 == '\n'
     if (vocab.type == LLAMA_VOCAB_TYPE_SPM) {
-        vocab.linefeed_id = llama_byte_to_token(vocab, '\n');
+	vocab.linefeed_id = llama_byte_to_token(vocab, '\n');
     } else {
-        const std::vector<int> ids = llama_tokenize_internal(vocab, "\u010A", false);
-        GGML_ASSERT(!ids.empty() && "model vocab missing newline token");
-        vocab.linefeed_id = ids[0];
+	const std::vector<int> ids = llama_tokenize_internal(vocab, "\u010A", false);
+	GGML_ASSERT(!ids.empty() && "model vocab missing newline token");
+	vocab.linefeed_id = ids[0];
     }
 
     // special tokens
     {
-        const std::vector<std::pair<enum llm_kv, int32_t &>> special_token_types = {
-            { LLM_KV_TOKENIZER_BOS_ID, vocab.special_bos_id },
-            { LLM_KV_TOKENIZER_EOS_ID, vocab.special_eos_id },
-            { LLM_KV_TOKENIZER_UNK_ID, vocab.special_unk_id },
-            { LLM_KV_TOKENIZER_SEP_ID, vocab.special_sep_id },
-            { LLM_KV_TOKENIZER_PAD_ID, vocab.special_pad_id },
-        };
-        for (const auto & it : special_token_types) {
-            const std::string & key = kv(std::get<0>(it));
-            int32_t & id = std::get<1>(it), old_id = id;
+	const std::vector<std::pair<enum llm_kv, int32_t &>> special_token_types = {
+	    { LLM_KV_TOKENIZER_BOS_ID, vocab.special_bos_id },
+	    { LLM_KV_TOKENIZER_EOS_ID, vocab.special_eos_id },
+	    { LLM_KV_TOKENIZER_UNK_ID, vocab.special_unk_id },
+	    { LLM_KV_TOKENIZER_SEP_ID, vocab.special_sep_id },
+	    { LLM_KV_TOKENIZER_PAD_ID, vocab.special_pad_id },
+	};
+	for (const auto & it : special_token_types) {
+	    const std::string & key = kv(std::get<0>(it));
+	    int32_t & id = std::get<1>(it), old_id = id;
 
-            GGUF_GET_KEY(ctx, id, gguf_get_val_u32, GGUF_TYPE_UINT32, false, key);
-            // Must be >= -1 and < vocab size. Since the key is unsigned, -1
-            // can only come from the default value, so there's no point in
-            // validating that.
-            if (size_t(id + 1) > vocab.id_to_token.size()) {
-                LLAMA_LOG_WARN("%s: bad special token: '%s' = %d, using default id %d\n",
-                    __func__, key.c_str(), id, old_id);
-                id = old_id;
-            }
+	    GGUF_GET_KEY(ctx, id, gguf_get_val_u32, GGUF_TYPE_UINT32, false, key);
+	    // Must be >= -1 and < vocab size. Since the key is unsigned, -1
+	    // can only come from the default value, so there's no point in
+	    // validating that.
+	    if (size_t(id + 1) > vocab.id_to_token.size()) {
+		LLAMA_LOG_WARN("%s: bad special token: '%s' = %d, using default id %d\n",
+		    __func__, key.c_str(), id, old_id);
+		id = old_id;
+	    }
 
-        }
+	}
 
-        // Handle add_bos_token and add_eos_token
-        std::string key = kv(LLM_KV_TOKENIZER_ADD_BOS);
-        int kid = gguf_find_key(ctx, key.c_str());
-        enum gguf_type ktype = kid < 0 ? GGUF_TYPE_COUNT : gguf_get_kv_type(ctx, kid);
-        vocab.special_add_bos = ktype == GGUF_TYPE_BOOL ? gguf_get_val_bool(ctx, kid) : -1;
-        if (ktype != GGUF_TYPE_BOOL && ktype != GGUF_TYPE_COUNT) {
-            LLAMA_LOG_WARN("%s: bad field type %d for '%s' - ignoring\n", __func__, ktype, key.c_str());
-        }
-        key = kv(LLM_KV_TOKENIZER_ADD_EOS);
-        kid = gguf_find_key(ctx, key.c_str());
-        ktype = kid < 0 ? GGUF_TYPE_COUNT : gguf_get_kv_type(ctx, kid);
-        vocab.special_add_eos = ktype == GGUF_TYPE_BOOL ? gguf_get_val_bool(ctx, kid) : -1;
-        if (ktype != GGUF_TYPE_BOOL && ktype != GGUF_TYPE_COUNT) {
-            LLAMA_LOG_WARN("%s: bad field type %d for '%s' - ignoring\n", __func__, ktype, key.c_str());
-        }
+	// Handle add_bos_token and add_eos_token
+	std::string key = kv(LLM_KV_TOKENIZER_ADD_BOS);
+	int kid = gguf_find_key(ctx, key.c_str());
+	enum gguf_type ktype = kid < 0 ? GGUF_TYPE_COUNT : gguf_get_kv_type(ctx, kid);
+	vocab.special_add_bos = ktype == GGUF_TYPE_BOOL ? gguf_get_val_bool(ctx, kid) : -1;
+	if (ktype != GGUF_TYPE_BOOL && ktype != GGUF_TYPE_COUNT) {
+	    LLAMA_LOG_WARN("%s: bad field type %d for '%s' - ignoring\n", __func__, ktype, key.c_str());
+	}
+	key = kv(LLM_KV_TOKENIZER_ADD_EOS);
+	kid = gguf_find_key(ctx, key.c_str());
+	ktype = kid < 0 ? GGUF_TYPE_COUNT : gguf_get_kv_type(ctx, kid);
+	vocab.special_add_eos = ktype == GGUF_TYPE_BOOL ? gguf_get_val_bool(ctx, kid) : -1;
+	if (ktype != GGUF_TYPE_BOOL && ktype != GGUF_TYPE_COUNT) {
+	    LLAMA_LOG_WARN("%s: bad field type %d for '%s' - ignoring\n", __func__, ktype, key.c_str());
+	}
     }
 
     // build special tokens cache
     {
-        // TODO: It is unclear (to me) at this point, whether special tokes are guaranteed to be of a deterministic type,
-        //  and will always be correctly labeled in 'added_tokens.json' etc.
-        // The assumption is, since special tokens aren't meant to be exposed to end user, they are designed
-        //  to be unmatchable by the tokenizer, therefore tokens from the vocab, which are unmatchable by the tokenizer
-        //  are special tokens.
-        // From testing, this appears to corelate 1:1 with special tokens.
-        //
+	// TODO: It is unclear (to me) at this point, whether special tokes are guaranteed to be of a deterministic type,
+	//  and will always be correctly labeled in 'added_tokens.json' etc.
+	// The assumption is, since special tokens aren't meant to be exposed to end user, they are designed
+	//  to be unmatchable by the tokenizer, therefore tokens from the vocab, which are unmatchable by the tokenizer
+	//  are special tokens.
+	// From testing, this appears to corelate 1:1 with special tokens.
+	//
 
-        // Counting special tokens and verifying in only one direction
-        //  is sufficient to detect difference in those two sets.
-        //
-        uint32_t special_tokens_count_by_type = 0;
-        uint32_t special_tokens_count_from_verification = 0;
+	// Counting special tokens and verifying in only one direction
+	//  is sufficient to detect difference in those two sets.
+	//
+	uint32_t special_tokens_count_by_type = 0;
+	uint32_t special_tokens_count_from_verification = 0;
 
-        bool special_tokens_definition_mismatch = false;
+	bool special_tokens_definition_mismatch = false;
 
-        for (const auto & t : vocab.token_to_id) {
-            const auto & token = t.first;
-            const auto & id    = t.second;
+	for (const auto & t : vocab.token_to_id) {
+	    const auto & token = t.first;
+	    const auto & id    = t.second;
 
-            // Count all non-normal tokens in the vocab while iterating
-            if (vocab.id_to_token[id].type != LLAMA_TOKEN_TYPE_NORMAL) {
-                special_tokens_count_by_type++;
-            }
+	    // Count all non-normal tokens in the vocab while iterating
+	    if (vocab.id_to_token[id].type != LLAMA_TOKEN_TYPE_NORMAL) {
+		special_tokens_count_by_type++;
+	    }
 
-            // Skip single character tokens
-            if (token.length() > 1) {
-                bool is_tokenizable = false;
+	    // Skip single character tokens
+	    if (token.length() > 1) {
+		bool is_tokenizable = false;
 
-                // Split token string representation in two, in all possible ways
-                //  and check if both halves can be matched to a valid token
-                for (unsigned i = 1; i < token.length();) {
-                    const auto left  = token.substr(0, i);
-                    const auto right = token.substr(i);
+		// Split token string representation in two, in all possible ways
+		//  and check if both halves can be matched to a valid token
+		for (unsigned i = 1; i < token.length();) {
+		    const auto left  = token.substr(0, i);
+		    const auto right = token.substr(i);
 
-                    // check if we didnt partition in the middle of a utf sequence
-                    auto utf = utf8_len(left.at(left.length() - 1));
+		    // check if we didnt partition in the middle of a utf sequence
+		    auto utf = utf8_len(left.at(left.length() - 1));
 
-                    if (utf == 1) {
-                        if (vocab.token_to_id.find(left)  != vocab.token_to_id.end() &&
-                            vocab.token_to_id.find(right) != vocab.token_to_id.end() ) {
-                            is_tokenizable = true;
-                            break;
-                        }
-                        i++;
-                    } else {
-                        // skip over the rest of multibyte utf sequence
-                        i += utf - 1;
-                    }
-                }
+		    if (utf == 1) {
+			if (vocab.token_to_id.find(left)  != vocab.token_to_id.end() &&
+			    vocab.token_to_id.find(right) != vocab.token_to_id.end() ) {
+			    is_tokenizable = true;
+			    break;
+			}
+			i++;
+		    } else {
+			// skip over the rest of multibyte utf sequence
+			i += utf - 1;
+		    }
+		}
 
-                if (!is_tokenizable) {
-                    // Some tokens are multibyte, but they are utf sequences with equivalent text length of 1
-                    //  it's faster to re-filter them here, since there are way less candidates now
+		if (!is_tokenizable) {
+		    // Some tokens are multibyte, but they are utf sequences with equivalent text length of 1
+		    //  it's faster to re-filter them here, since there are way less candidates now
 
-                    // Calculate a total "utf" length of a token string representation
-                    size_t utf8_str_len = 0;
-                    for (unsigned i = 0; i < token.length();) {
-                        utf8_str_len++;
-                        i += utf8_len(token.at(i));
-                    }
+		    // Calculate a total "utf" length of a token string representation
+		    size_t utf8_str_len = 0;
+		    for (unsigned i = 0; i < token.length();) {
+			utf8_str_len++;
+			i += utf8_len(token.at(i));
+		    }
 
-                    // And skip the ones which are one character
-                    if (utf8_str_len > 1) {
-                        // At this point what we have left are special tokens only
-                        vocab.special_tokens_cache[token] = id;
+		    // And skip the ones which are one character
+		    if (utf8_str_len > 1) {
+			// At this point what we have left are special tokens only
+			vocab.special_tokens_cache[token] = id;
 
-                        // Count manually found special tokens
-                        special_tokens_count_from_verification++;
+			// Count manually found special tokens
+			special_tokens_count_from_verification++;
 
-                        // If this manually found special token is not marked as such, flag a mismatch
-                        if (vocab.id_to_token[id].type == LLAMA_TOKEN_TYPE_NORMAL) {
-                            special_tokens_definition_mismatch = true;
-                        }
-                    }
-                }
-            }
-        }
+			// If this manually found special token is not marked as such, flag a mismatch
+			if (vocab.id_to_token[id].type == LLAMA_TOKEN_TYPE_NORMAL) {
+			    special_tokens_definition_mismatch = true;
+			}
+		    }
+		}
+	    }
+	}
 
-        if (special_tokens_definition_mismatch || special_tokens_count_from_verification != special_tokens_count_by_type) {
-            LLAMA_LOG_WARN("%s: mismatch in special tokens definition ( %u/%zu vs %u/%zu ).\n",
-                __func__,
-                special_tokens_count_from_verification, vocab.id_to_token.size(),
-                special_tokens_count_by_type, vocab.id_to_token.size()
-            );
-        } else {
-            LLAMA_LOG_INFO("%s: special tokens definition check successful ( %u/%zu ).\n",
-                __func__,
-                special_tokens_count_from_verification, vocab.id_to_token.size()
-            );
-        }
+	if (special_tokens_definition_mismatch || special_tokens_count_from_verification != special_tokens_count_by_type) {
+	    LLAMA_LOG_WARN("%s: mismatch in special tokens definition ( %u/%zu vs %u/%zu ).\n",
+		__func__,
+		special_tokens_count_from_verification, vocab.id_to_token.size(),
+		special_tokens_count_by_type, vocab.id_to_token.size()
+	    );
+	} else {
+	    LLAMA_LOG_INFO("%s: special tokens definition check successful ( %u/%zu ).\n",
+		__func__,
+		special_tokens_count_from_verification, vocab.id_to_token.size()
+	    );
+	}
     }
 }
 
@@ -2628,9 +2628,9 @@ static void llm_load_print_meta(llama_model_loader & ml, llama_model & model) {
     LLAMA_LOG_INFO("%s: model ftype      = %s\n",     __func__, llama_model_ftype_name(model.ftype).c_str());
     LLAMA_LOG_INFO("%s: model params     = %.2f B\n", __func__, ml.n_elements*1e-9);
     if (ml.n_bytes < GiB) {
-        LLAMA_LOG_INFO("%s: model size       = %.2f MiB (%.2f BPW) \n", __func__, ml.n_bytes/1024.0/1024.0,        ml.n_bytes*8.0/ml.n_elements);
+	LLAMA_LOG_INFO("%s: model size       = %.2f MiB (%.2f BPW) \n", __func__, ml.n_bytes/1024.0/1024.0,        ml.n_bytes*8.0/ml.n_elements);
     } else {
-        LLAMA_LOG_INFO("%s: model size       = %.2f GiB (%.2f BPW) \n", __func__, ml.n_bytes/1024.0/1024.0/1024.0, ml.n_bytes*8.0/ml.n_elements);
+	LLAMA_LOG_INFO("%s: model size       = %.2f GiB (%.2f BPW) \n", __func__, ml.n_bytes/1024.0/1024.0/1024.0, ml.n_bytes*8.0/ml.n_elements);
     }
 
     // general kv
@@ -2646,14 +2646,14 @@ static void llm_load_print_meta(llama_model_loader & ml, llama_model & model) {
 }
 
 static void llm_load_tensors(
-        llama_model_loader & ml,
-        llama_model & model,
-        int n_gpu_layers,
-        int main_gpu,
-        const float * tensor_split,
-        bool use_mlock,
-        llama_progress_callback progress_callback,
-        void * progress_callback_user_data) {
+	llama_model_loader & ml,
+	llama_model & model,
+	int n_gpu_layers,
+	int main_gpu,
+	const float * tensor_split,
+	bool use_mlock,
+	llama_progress_callback progress_callback,
+	void * progress_callback_user_data) {
     model.t_start_us = ggml_time_us();
 
     auto & ctx     = model.ctx;
@@ -2670,22 +2670,22 @@ static void llm_load_tensors(
 
     // create the ggml context
     {
-        model.buf.resize(ctx_size);
-        if (use_mlock) {
-            model.mlock_buf.init   (model.buf.data);
-            model.mlock_buf.grow_to(model.buf.size);
-        }
+	model.buf.resize(ctx_size);
+	if (use_mlock) {
+	    model.mlock_buf.init   (model.buf.data);
+	    model.mlock_buf.grow_to(model.buf.size);
+	}
 
-        struct ggml_init_params params = {
-            .mem_size   = model.buf.size,
-            .mem_buffer = model.buf.data,
-            .no_alloc   = ml.use_mmap,
-        };
+	struct ggml_init_params params = {
+	    .mem_size   = model.buf.size,
+	    .mem_buffer = model.buf.data,
+	    .no_alloc   = ml.use_mmap,
+	};
 
-        model.ctx = ggml_init(params);
-        if (!model.ctx) {
-            throw std::runtime_error(format("ggml_init() failed"));
-        }
+	model.ctx = ggml_init(params);
+	if (!model.ctx) {
+	    throw std::runtime_error(format("ggml_init() failed"));
+	}
     }
 
     (void) main_gpu;
@@ -2695,693 +2695,693 @@ static void llm_load_tensors(
 
 #ifdef GGML_USE_CUBLAS
     if (ggml_cublas_loaded()) {
-        LLAMA_LOG_INFO("%s: using " GGML_CUDA_NAME " for GPU acceleration\n", __func__);
-        ggml_cuda_set_main_device(main_gpu);
+	LLAMA_LOG_INFO("%s: using " GGML_CUDA_NAME " for GPU acceleration\n", __func__);
+	ggml_cuda_set_main_device(main_gpu);
 
-        llama_backend_offload = GGML_BACKEND_GPU;
-        llama_backend_offload_split = GGML_BACKEND_GPU_SPLIT;
+	llama_backend_offload = GGML_BACKEND_GPU;
+	llama_backend_offload_split = GGML_BACKEND_GPU_SPLIT;
     }
 #elif defined(GGML_USE_CLBLAST)
-        LLAMA_LOG_INFO("%s: using OpenCL for GPU acceleration\n", __func__);
-        llama_backend_offload = GGML_BACKEND_GPU;
-        llama_backend_offload_split = GGML_BACKEND_GPU;
+	LLAMA_LOG_INFO("%s: using OpenCL for GPU acceleration\n", __func__);
+	llama_backend_offload = GGML_BACKEND_GPU;
+	llama_backend_offload_split = GGML_BACKEND_GPU;
 #endif
 
     // prepare memory for the weights
     size_t vram_weights = 0;
     {
-        const int64_t n_embd     = hparams.n_embd;
-        const int64_t n_embd_gqa = hparams.n_embd_gqa();
-        const int64_t n_layer    = hparams.n_layer;
-        const int64_t n_vocab    = hparams.n_vocab;
+	const int64_t n_embd     = hparams.n_embd;
+	const int64_t n_embd_gqa = hparams.n_embd_gqa();
+	const int64_t n_layer    = hparams.n_layer;
+	const int64_t n_vocab    = hparams.n_vocab;
 
-        const auto tn = LLM_TN(model.arch);
-        switch (model.arch) {
-            case LLM_ARCH_LLAMA:
-            case LLM_ARCH_REFACT:
-                {
-                    model.tok_embd = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD, "weight"), {n_embd, n_vocab}, GGML_BACKEND_CPU);
+	const auto tn = LLM_TN(model.arch);
+	switch (model.arch) {
+	    case LLM_ARCH_LLAMA:
+	    case LLM_ARCH_REFACT:
+		{
+		    model.tok_embd = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD, "weight"), {n_embd, n_vocab}, GGML_BACKEND_CPU);
 
-                    // output
-                    {
-                        ggml_backend_type backend_norm;
-                        ggml_backend_type backend_output;
+		    // output
+		    {
+			ggml_backend_type backend_norm;
+			ggml_backend_type backend_output;
 
-                        if (n_gpu_layers > int(n_layer)) {
-                            // norm is not performance relevant on its own but keeping it in VRAM reduces data copying
-                            // on Windows however this is detrimental unless everything is on the GPU
+			if (n_gpu_layers > int(n_layer)) {
+			    // norm is not performance relevant on its own but keeping it in VRAM reduces data copying
+			    // on Windows however this is detrimental unless everything is on the GPU
 #ifndef _WIN32
-                            backend_norm = llama_backend_offload;
+			    backend_norm = llama_backend_offload;
 #else
-                            backend_norm = n_gpu_layers <= (int) n_layer + 2 ? GGML_BACKEND_CPU : llama_backend_offload;
+			    backend_norm = n_gpu_layers <= (int) n_layer + 2 ? GGML_BACKEND_CPU : llama_backend_offload;
 #endif // _WIN32
 
-                            backend_output = llama_backend_offload_split;
-                        } else {
-                            backend_norm   = GGML_BACKEND_CPU;
-                            backend_output = GGML_BACKEND_CPU;
-                        }
+			    backend_output = llama_backend_offload_split;
+			} else {
+			    backend_norm   = GGML_BACKEND_CPU;
+			    backend_output = GGML_BACKEND_CPU;
+			}
 
-                        model.output_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "weight"), {n_embd},          backend_norm);
-                        model.output      = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT,      "weight"), {n_embd, n_vocab}, backend_output);
+			model.output_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "weight"), {n_embd},          backend_norm);
+			model.output      = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT,      "weight"), {n_embd, n_vocab}, backend_output);
 
-                        if (backend_norm == GGML_BACKEND_GPU) {
+			if (backend_norm == GGML_BACKEND_GPU) {
 			  fprintf(stderr, "vram_weights00 '%ld'\n", vram_weights);
-                            vram_weights += ggml_nbytes(model.output_norm);
-                        }
-                        if (backend_output == GGML_BACKEND_GPU_SPLIT) {
+			    vram_weights += ggml_nbytes(model.output_norm);
+			}
+			if (backend_output == GGML_BACKEND_GPU_SPLIT) {
 			  fprintf(stderr, "vram_weights01 '%ld'\n", vram_weights);
-                            vram_weights += ggml_nbytes(model.output);
-                        }
-                    }
+			    vram_weights += ggml_nbytes(model.output);
+			}
+		    }
 
-                    const uint32_t n_ff = hparams.n_ff;
+		    const uint32_t n_ff = hparams.n_ff;
 
-                    const int i_gpu_start = n_layer - n_gpu_layers;
+		    const int i_gpu_start = n_layer - n_gpu_layers;
 
-                    model.layers.resize(n_layer);
+		    model.layers.resize(n_layer);
 
-                    for (uint32_t i = 0; i < n_layer; ++i) {
-                        const ggml_backend_type backend = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload; // NOLINT
-                        const ggml_backend_type backend_split = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload_split; // NOLINT
+		    for (uint32_t i = 0; i < n_layer; ++i) {
+			const ggml_backend_type backend = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload; // NOLINT
+			const ggml_backend_type backend_split = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload_split; // NOLINT
 
-                        auto & layer = model.layers[i];
+			auto & layer = model.layers[i];
 
-                        layer.attn_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM, "weight", i), {n_embd}, backend);
+			layer.attn_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM, "weight", i), {n_embd}, backend);
 
-                        layer.wq = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_Q,   "weight", i), {n_embd, n_embd},     backend_split);
-                        layer.wk = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_K,   "weight", i), {n_embd, n_embd_gqa}, backend_split);
-                        layer.wv = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_V,   "weight", i), {n_embd, n_embd_gqa}, backend_split);
-                        layer.wo = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd, n_embd},     backend_split);
+			layer.wq = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_Q,   "weight", i), {n_embd, n_embd},     backend_split);
+			layer.wk = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_K,   "weight", i), {n_embd, n_embd_gqa}, backend_split);
+			layer.wv = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_V,   "weight", i), {n_embd, n_embd_gqa}, backend_split);
+			layer.wo = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd, n_embd},     backend_split);
 
-                        layer.ffn_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM, "weight", i), {n_embd}, backend);
+			layer.ffn_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM, "weight", i), {n_embd}, backend);
 
-                        layer.ffn_gate = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_GATE, "weight", i), {n_embd,   n_ff}, backend_split);
-                        layer.ffn_down = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN, "weight", i), {  n_ff, n_embd}, backend_split);
-                        layer.ffn_up   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,   "weight", i), {n_embd,   n_ff}, backend_split);
+			layer.ffn_gate = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_GATE, "weight", i), {n_embd,   n_ff}, backend_split);
+			layer.ffn_down = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN, "weight", i), {  n_ff, n_embd}, backend_split);
+			layer.ffn_up   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,   "weight", i), {n_embd,   n_ff}, backend_split);
 
-                        if (backend == GGML_BACKEND_GPU) {
+			if (backend == GGML_BACKEND_GPU) {
 			  fprintf(stderr, "vram_weights03 '%ld'\n", vram_weights);
-                            vram_weights +=
-                                ggml_nbytes(layer.attn_norm) + ggml_nbytes(layer.wq)       + ggml_nbytes(layer.wk)       +
-                                ggml_nbytes(layer.wv)        + ggml_nbytes(layer.wo)       + ggml_nbytes(layer.ffn_norm) +
-                                ggml_nbytes(layer.ffn_gate)  + ggml_nbytes(layer.ffn_down) + ggml_nbytes(layer.ffn_up);
-                        }
-                    }
-                } break;
-            case LLM_ARCH_BAICHUAN:
-                {
-                    model.tok_embd = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD, "weight"), {n_embd, n_vocab}, GGML_BACKEND_CPU);
-                    {
-                        ggml_backend_type backend_norm;
-                        ggml_backend_type backend_output;
+			    vram_weights +=
+				ggml_nbytes(layer.attn_norm) + ggml_nbytes(layer.wq)       + ggml_nbytes(layer.wk)       +
+				ggml_nbytes(layer.wv)        + ggml_nbytes(layer.wo)       + ggml_nbytes(layer.ffn_norm) +
+				ggml_nbytes(layer.ffn_gate)  + ggml_nbytes(layer.ffn_down) + ggml_nbytes(layer.ffn_up);
+			}
+		    }
+		} break;
+	    case LLM_ARCH_BAICHUAN:
+		{
+		    model.tok_embd = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD, "weight"), {n_embd, n_vocab}, GGML_BACKEND_CPU);
+		    {
+			ggml_backend_type backend_norm;
+			ggml_backend_type backend_output;
 
-                        if (n_gpu_layers > int(n_layer)) {
-                            // norm is not performance relevant on its own but keeping it in VRAM reduces data copying
-                            // on Windows however this is detrimental unless everything is on the GPU
+			if (n_gpu_layers > int(n_layer)) {
+			    // norm is not performance relevant on its own but keeping it in VRAM reduces data copying
+			    // on Windows however this is detrimental unless everything is on the GPU
 #ifndef _WIN32
-                            backend_norm = llama_backend_offload;
+			    backend_norm = llama_backend_offload;
 #else
-                            backend_norm = n_gpu_layers <= (int) n_layer + 2 ? GGML_BACKEND_CPU : llama_backend_offload;
+			    backend_norm = n_gpu_layers <= (int) n_layer + 2 ? GGML_BACKEND_CPU : llama_backend_offload;
 #endif // _WIN32
 
-                            backend_output = llama_backend_offload_split;
-                        } else {
-                            backend_norm   = GGML_BACKEND_CPU;
-                            backend_output = GGML_BACKEND_CPU;
-                        }
+			    backend_output = llama_backend_offload_split;
+			} else {
+			    backend_norm   = GGML_BACKEND_CPU;
+			    backend_output = GGML_BACKEND_CPU;
+			}
 
-                        model.output_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "weight"), {n_embd},          backend_norm);
-                        model.output      = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT,      "weight"), {n_embd, n_vocab}, backend_output);
+			model.output_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "weight"), {n_embd},          backend_norm);
+			model.output      = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT,      "weight"), {n_embd, n_vocab}, backend_output);
 
-                        if (backend_norm == GGML_BACKEND_GPU) {
+			if (backend_norm == GGML_BACKEND_GPU) {
 			  fprintf(stderr, "vram_weights04 '%ld'\n", vram_weights);
-                            vram_weights += ggml_nbytes(model.output_norm);
-                        }
-                        if (backend_output == GGML_BACKEND_GPU_SPLIT) {
+			    vram_weights += ggml_nbytes(model.output_norm);
+			}
+			if (backend_output == GGML_BACKEND_GPU_SPLIT) {
 			  fprintf(stderr, "vram_weights05 '%ld'\n", vram_weights);
-                            vram_weights += ggml_nbytes(model.output);
-                        }
-                    }
+			    vram_weights += ggml_nbytes(model.output);
+			}
+		    }
 
-                    const uint32_t n_ff = hparams.n_ff;
+		    const uint32_t n_ff = hparams.n_ff;
 
-                    const int i_gpu_start = n_layer - n_gpu_layers;
+		    const int i_gpu_start = n_layer - n_gpu_layers;
 
-                    model.layers.resize(n_layer);
+		    model.layers.resize(n_layer);
 
-                    for (uint32_t i = 0; i < n_layer; ++i) {
-                        const ggml_backend_type backend = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload; // NOLINT
-                        const ggml_backend_type backend_split = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload_split; // NOLINT
+		    for (uint32_t i = 0; i < n_layer; ++i) {
+			const ggml_backend_type backend = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload; // NOLINT
+			const ggml_backend_type backend_split = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload_split; // NOLINT
 
-                        auto & layer = model.layers[i];
+			auto & layer = model.layers[i];
 
-                        layer.attn_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM, "weight", i), {n_embd}, backend);
+			layer.attn_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM, "weight", i), {n_embd}, backend);
 
-                        layer.wq = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_Q,   "weight", i), {n_embd, n_embd},     backend_split);
-                        layer.wk = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_K,   "weight", i), {n_embd, n_embd_gqa}, backend_split);
-                        layer.wv = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_V,   "weight", i), {n_embd, n_embd_gqa}, backend_split);
-                        layer.wo = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd, n_embd},     backend_split);
+			layer.wq = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_Q,   "weight", i), {n_embd, n_embd},     backend_split);
+			layer.wk = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_K,   "weight", i), {n_embd, n_embd_gqa}, backend_split);
+			layer.wv = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_V,   "weight", i), {n_embd, n_embd_gqa}, backend_split);
+			layer.wo = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd, n_embd},     backend_split);
 
-                        layer.ffn_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM, "weight", i), {n_embd}, backend);
+			layer.ffn_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM, "weight", i), {n_embd}, backend);
 
-                        layer.ffn_gate = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_GATE, "weight", i), {n_embd,   n_ff}, backend_split);
-                        layer.ffn_down = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN, "weight", i), {  n_ff, n_embd}, backend_split);
-                        layer.ffn_up   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,   "weight", i), {n_embd,   n_ff}, backend_split);
+			layer.ffn_gate = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_GATE, "weight", i), {n_embd,   n_ff}, backend_split);
+			layer.ffn_down = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN, "weight", i), {  n_ff, n_embd}, backend_split);
+			layer.ffn_up   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,   "weight", i), {n_embd,   n_ff}, backend_split);
 
-                        if (backend == GGML_BACKEND_GPU) {
+			if (backend == GGML_BACKEND_GPU) {
 			  fprintf(stderr, "vram_weights06 '%ld'\n", vram_weights);
-                            vram_weights +=
-                                ggml_nbytes(layer.attn_norm) + ggml_nbytes(layer.wq)       + ggml_nbytes(layer.wk)       +
-                                ggml_nbytes(layer.wv)        + ggml_nbytes(layer.wo)       + ggml_nbytes(layer.ffn_norm) +
-                                ggml_nbytes(layer.ffn_gate)  + ggml_nbytes(layer.ffn_down) + ggml_nbytes(layer.ffn_up);
-                        }
-                    }
-                } break;
-            case LLM_ARCH_FALCON:
-                {
-                    // TODO: CPU-only for now
+			    vram_weights +=
+				ggml_nbytes(layer.attn_norm) + ggml_nbytes(layer.wq)       + ggml_nbytes(layer.wk)       +
+				ggml_nbytes(layer.wv)        + ggml_nbytes(layer.wo)       + ggml_nbytes(layer.ffn_norm) +
+				ggml_nbytes(layer.ffn_gate)  + ggml_nbytes(layer.ffn_down) + ggml_nbytes(layer.ffn_up);
+			}
+		    }
+		} break;
+	    case LLM_ARCH_FALCON:
+		{
+		    // TODO: CPU-only for now
 
-                    model.tok_embd = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD, "weight"), {n_embd, n_vocab}, GGML_BACKEND_CPU);
+		    model.tok_embd = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD, "weight"), {n_embd, n_vocab}, GGML_BACKEND_CPU);
 
-                    // output
-                    {
-                        ggml_backend_type backend_norm;
-                        ggml_backend_type backend_output;
+		    // output
+		    {
+			ggml_backend_type backend_norm;
+			ggml_backend_type backend_output;
 
-                        if (n_gpu_layers > int(n_layer)) {
-                            // norm is not performance relevant on its own but keeping it in VRAM reduces data copying
-                            // on Windows however this is detrimental unless everything is on the GPU
+			if (n_gpu_layers > int(n_layer)) {
+			    // norm is not performance relevant on its own but keeping it in VRAM reduces data copying
+			    // on Windows however this is detrimental unless everything is on the GPU
 #ifndef _WIN32
-                            backend_norm = llama_backend_offload;
+			    backend_norm = llama_backend_offload;
 #else
-                            backend_norm = n_gpu_layers <= (int) n_layer + 2 ? GGML_BACKEND_CPU : llama_backend_offload;
+			    backend_norm = n_gpu_layers <= (int) n_layer + 2 ? GGML_BACKEND_CPU : llama_backend_offload;
 #endif // _WIN32
 
-                            backend_output = llama_backend_offload_split;
-                        } else {
-                            backend_norm   = GGML_BACKEND_CPU;
-                            backend_output = GGML_BACKEND_CPU;
-                        }
+			    backend_output = llama_backend_offload_split;
+			} else {
+			    backend_norm   = GGML_BACKEND_CPU;
+			    backend_output = GGML_BACKEND_CPU;
+			}
 
-                        model.output_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "weight"), {n_embd},          backend_norm);
-                        model.output_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "bias"),   {n_embd},          backend_norm);
-                        model.output        = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT,      "weight"), {n_embd, n_vocab}, backend_output);
+			model.output_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "weight"), {n_embd},          backend_norm);
+			model.output_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "bias"),   {n_embd},          backend_norm);
+			model.output        = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT,      "weight"), {n_embd, n_vocab}, backend_output);
 
-                        if (backend_norm == GGML_BACKEND_GPU) {
+			if (backend_norm == GGML_BACKEND_GPU) {
 			  fprintf(stderr, "vram_weights07 '%ld'\n", vram_weights);
-                            vram_weights += ggml_nbytes(model.output_norm);
+			    vram_weights += ggml_nbytes(model.output_norm);
 			  fprintf(stderr, "vram_weights08 '%ld'\n", vram_weights);
-                            vram_weights += ggml_nbytes(model.output_norm_b);
-                        }
-                        if (backend_output == GGML_BACKEND_GPU_SPLIT) {
+			    vram_weights += ggml_nbytes(model.output_norm_b);
+			}
+			if (backend_output == GGML_BACKEND_GPU_SPLIT) {
 			  fprintf(stderr, "vram_weights09 '%ld'\n", vram_weights);
-                            vram_weights += ggml_nbytes(model.output);
-                        }
-                    }
+			    vram_weights += ggml_nbytes(model.output);
+			}
+		    }
 
-                    const uint32_t n_ff = hparams.n_ff;
+		    const uint32_t n_ff = hparams.n_ff;
 
-                    const int i_gpu_start = n_layer - n_gpu_layers;
+		    const int i_gpu_start = n_layer - n_gpu_layers;
 
-                    model.layers.resize(n_layer);
+		    model.layers.resize(n_layer);
 
-                    for (uint32_t i = 0; i < n_layer; ++i) {
-                        const ggml_backend_type backend       = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload; // NOLINT
-                        const ggml_backend_type backend_split = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload_split; // NOLINT
+		    for (uint32_t i = 0; i < n_layer; ++i) {
+			const ggml_backend_type backend       = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload; // NOLINT
+			const ggml_backend_type backend_split = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload_split; // NOLINT
 
-                        auto & layer = model.layers[i];
+			auto & layer = model.layers[i];
 
-                        layer.attn_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM,   "weight", i), {n_embd}, backend);
-                        layer.attn_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM,   "bias", i),   {n_embd}, backend);
+			layer.attn_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM,   "weight", i), {n_embd}, backend);
+			layer.attn_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM,   "bias", i),   {n_embd}, backend);
 
-                        if (gguf_find_tensor(ml.ctx_gguf, tn(LLM_TENSOR_ATTN_NORM_2, "weight", i).c_str()) >= 0) {
-                            layer.attn_norm_2   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM_2, "weight", i), {n_embd}, backend);
-                            layer.attn_norm_2_b = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM_2, "bias", i),   {n_embd}, backend);
+			if (gguf_find_tensor(ml.ctx_gguf, tn(LLM_TENSOR_ATTN_NORM_2, "weight", i).c_str()) >= 0) {
+			    layer.attn_norm_2   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM_2, "weight", i), {n_embd}, backend);
+			    layer.attn_norm_2_b = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM_2, "bias", i),   {n_embd}, backend);
 
-                            if (backend == GGML_BACKEND_GPU) {
+			    if (backend == GGML_BACKEND_GPU) {
 			      fprintf(stderr, "vram_weights10 '%ld'\n", vram_weights);
-                                vram_weights += ggml_nbytes(layer.attn_norm_2);
+				vram_weights += ggml_nbytes(layer.attn_norm_2);
 			      fprintf(stderr, "vram_weights11 '%ld'\n", vram_weights);
-                                vram_weights += ggml_nbytes(layer.attn_norm_2_b);
-                            }
-                        }
+				vram_weights += ggml_nbytes(layer.attn_norm_2_b);
+			    }
+			}
 
-                        layer.wqkv = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_QKV, "weight", i), {n_embd, n_embd + 2*n_embd_gqa}, backend_split);
-                        layer.wo   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd, n_embd},                backend_split);
+			layer.wqkv = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_QKV, "weight", i), {n_embd, n_embd + 2*n_embd_gqa}, backend_split);
+			layer.wo   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd, n_embd},                backend_split);
 
-                        layer.ffn_down = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN, "weight", i), {  n_ff, n_embd}, backend_split);
-                        layer.ffn_up   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,   "weight", i), {n_embd,   n_ff}, backend_split);
+			layer.ffn_down = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN, "weight", i), {  n_ff, n_embd}, backend_split);
+			layer.ffn_up   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,   "weight", i), {n_embd,   n_ff}, backend_split);
 
-                        if (backend == GGML_BACKEND_GPU) {
+			if (backend == GGML_BACKEND_GPU) {
 			  fprintf(stderr, "vram_weights12 '%ld'\n", vram_weights);
-                            vram_weights +=
-                                ggml_nbytes(layer.attn_norm) + ggml_nbytes(layer.attn_norm_b) +
-                                ggml_nbytes(layer.wqkv)      + ggml_nbytes(layer.wo)          +
-                                ggml_nbytes(layer.ffn_down)  + ggml_nbytes(layer.ffn_up);
-                        }
-                    }
-                } break;
-            case LLM_ARCH_STARCODER:
-                {
-                    model.tok_embd = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD, "weight"), {n_embd, n_vocab},             GGML_BACKEND_CPU);
-                    model.pos_embd = ml.create_tensor(ctx, tn(LLM_TENSOR_POS_EMBD, "weight"),   {n_embd, hparams.n_ctx_train}, GGML_BACKEND_CPU);
+			    vram_weights +=
+				ggml_nbytes(layer.attn_norm) + ggml_nbytes(layer.attn_norm_b) +
+				ggml_nbytes(layer.wqkv)      + ggml_nbytes(layer.wo)          +
+				ggml_nbytes(layer.ffn_down)  + ggml_nbytes(layer.ffn_up);
+			}
+		    }
+		} break;
+	    case LLM_ARCH_STARCODER:
+		{
+		    model.tok_embd = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD, "weight"), {n_embd, n_vocab},             GGML_BACKEND_CPU);
+		    model.pos_embd = ml.create_tensor(ctx, tn(LLM_TENSOR_POS_EMBD, "weight"),   {n_embd, hparams.n_ctx_train}, GGML_BACKEND_CPU);
 
-                    // output
-                    {
-                        ggml_backend_type backend_norm;
-                        ggml_backend_type backend_output;
+		    // output
+		    {
+			ggml_backend_type backend_norm;
+			ggml_backend_type backend_output;
 
-                        if (n_gpu_layers > int(n_layer)) {
-                            // norm is not performance relevant on its own but keeping it in VRAM reduces data copying
-                            // on Windows however this is detrimental unless everything is on the GPU
+			if (n_gpu_layers > int(n_layer)) {
+			    // norm is not performance relevant on its own but keeping it in VRAM reduces data copying
+			    // on Windows however this is detrimental unless everything is on the GPU
 #ifndef _WIN32
-                            backend_norm = llama_backend_offload;
+			    backend_norm = llama_backend_offload;
 #else
-                            backend_norm = n_gpu_layers <= (int) n_layer + 2 ? GGML_BACKEND_CPU : llama_backend_offload;
+			    backend_norm = n_gpu_layers <= (int) n_layer + 2 ? GGML_BACKEND_CPU : llama_backend_offload;
 #endif // _WIN32
 
-                            backend_output = llama_backend_offload_split;
-                        } else {
-                            backend_norm   = GGML_BACKEND_CPU;
-                            backend_output = GGML_BACKEND_CPU;
-                        }
+			    backend_output = llama_backend_offload_split;
+			} else {
+			    backend_norm   = GGML_BACKEND_CPU;
+			    backend_output = GGML_BACKEND_CPU;
+			}
 
-                        model.output_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "weight"), {n_embd},          backend_norm);
-                        model.output_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "bias"),   {n_embd},          backend_norm);
-                        model.output        = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT,      "weight"), {n_embd, n_vocab}, backend_output);
+			model.output_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "weight"), {n_embd},          backend_norm);
+			model.output_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "bias"),   {n_embd},          backend_norm);
+			model.output        = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT,      "weight"), {n_embd, n_vocab}, backend_output);
 
-                        if (backend_norm == GGML_BACKEND_GPU) {
+			if (backend_norm == GGML_BACKEND_GPU) {
 			  fprintf(stderr, "vram_weights13 '%ld'\n", vram_weights);
-                            vram_weights += ggml_nbytes(model.output_norm);
-                            vram_weights += ggml_nbytes(model.output_norm_b);
-                        }
-                        if (backend_output == GGML_BACKEND_GPU_SPLIT) {
+			    vram_weights += ggml_nbytes(model.output_norm);
+			    vram_weights += ggml_nbytes(model.output_norm_b);
+			}
+			if (backend_output == GGML_BACKEND_GPU_SPLIT) {
 			  fprintf(stderr, "vram_weights14 '%ld'\n", vram_weights);
-                            vram_weights += ggml_nbytes(model.output);
-                        }
-                    }
+			    vram_weights += ggml_nbytes(model.output);
+			}
+		    }
 
-                    const uint32_t n_ff = hparams.n_ff;
+		    const uint32_t n_ff = hparams.n_ff;
 
-                    const int i_gpu_start = n_layer - n_gpu_layers;
+		    const int i_gpu_start = n_layer - n_gpu_layers;
 
-                    model.layers.resize(n_layer);
+		    model.layers.resize(n_layer);
 
-                    for (uint32_t i = 0; i < n_layer; ++i) {
-                        const ggml_backend_type backend       = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload; // NOLINT
-                        const ggml_backend_type backend_split = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload_split; // NOLINT
+		    for (uint32_t i = 0; i < n_layer; ++i) {
+			const ggml_backend_type backend       = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload; // NOLINT
+			const ggml_backend_type backend_split = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload_split; // NOLINT
 
-                        auto & layer = model.layers[i];
+			auto & layer = model.layers[i];
 
-                        layer.attn_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM,   "weight", i), {n_embd}, backend);
-                        layer.attn_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM,   "bias", i),   {n_embd}, backend);
+			layer.attn_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM,   "weight", i), {n_embd}, backend);
+			layer.attn_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM,   "bias", i),   {n_embd}, backend);
 
-                        layer.wqkv = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_QKV, "weight", i), {n_embd, n_embd + 2*n_embd_gqa}, backend_split);
-                        layer.bqkv = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_QKV, "bias", i),   {n_embd + 2*n_embd_gqa},         backend);
+			layer.wqkv = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_QKV, "weight", i), {n_embd, n_embd + 2*n_embd_gqa}, backend_split);
+			layer.bqkv = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_QKV, "bias", i),   {n_embd + 2*n_embd_gqa},         backend);
 
-                        layer.wo   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd, n_embd},   backend_split);
-                        layer.bo   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT, "bias", i),   {n_embd},           backend);
+			layer.wo   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd, n_embd},   backend_split);
+			layer.bo   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT, "bias", i),   {n_embd},           backend);
 
-                        layer.ffn_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM, "weight", i), {n_embd}, backend);
-                        layer.ffn_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM, "bias", i),   {n_embd}, backend);
+			layer.ffn_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM, "weight", i), {n_embd}, backend);
+			layer.ffn_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM, "bias", i),   {n_embd}, backend);
 
-                        layer.ffn_down   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN, "weight", i), {n_ff, n_embd}, backend_split);
-                        layer.ffn_down_b = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN, "bias", i),   {n_embd},       backend);
+			layer.ffn_down   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN, "weight", i), {n_ff, n_embd}, backend_split);
+			layer.ffn_down_b = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN, "bias", i),   {n_embd},       backend);
 
-                        layer.ffn_up   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,   "weight", i), {n_embd, n_ff}, backend_split);
-                        layer.ffn_up_b = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,   "bias", i),           {n_ff}, backend);
+			layer.ffn_up   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,   "weight", i), {n_embd, n_ff}, backend_split);
+			layer.ffn_up_b = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,   "bias", i),           {n_ff}, backend);
 
-                        if (backend == GGML_BACKEND_GPU) {
+			if (backend == GGML_BACKEND_GPU) {
 			  fprintf(stderr, "vram_weights15 '%ld'\n", vram_weights);
-                            vram_weights +=
-                                ggml_nbytes(layer.attn_norm) + ggml_nbytes(layer.attn_norm_b) +
-                                ggml_nbytes(layer.wqkv)      + ggml_nbytes(layer.bqkv)        +
-                                ggml_nbytes(layer.wo)        + ggml_nbytes(layer.bo)          +
-                                ggml_nbytes(layer.ffn_norm)  + ggml_nbytes(layer.ffn_norm_b)  +
-                                ggml_nbytes(layer.ffn_down)  + ggml_nbytes(layer.ffn_down_b)  +
-                                ggml_nbytes(layer.ffn_up)    + ggml_nbytes(layer.ffn_up_b);
-                        }
-                    }
-                } break;
-            case LLM_ARCH_PERSIMMON:
-                {
-                    model.tok_embd = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD, "weight"),  {n_embd, n_vocab}, GGML_BACKEND_CPU);
+			    vram_weights +=
+				ggml_nbytes(layer.attn_norm) + ggml_nbytes(layer.attn_norm_b) +
+				ggml_nbytes(layer.wqkv)      + ggml_nbytes(layer.bqkv)        +
+				ggml_nbytes(layer.wo)        + ggml_nbytes(layer.bo)          +
+				ggml_nbytes(layer.ffn_norm)  + ggml_nbytes(layer.ffn_norm_b)  +
+				ggml_nbytes(layer.ffn_down)  + ggml_nbytes(layer.ffn_down_b)  +
+				ggml_nbytes(layer.ffn_up)    + ggml_nbytes(layer.ffn_up_b);
+			}
+		    }
+		} break;
+	    case LLM_ARCH_PERSIMMON:
+		{
+		    model.tok_embd = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD, "weight"),  {n_embd, n_vocab}, GGML_BACKEND_CPU);
 
-                    {
-                        ggml_backend_type backend_norm;
-                        ggml_backend_type backend_output;
+		    {
+			ggml_backend_type backend_norm;
+			ggml_backend_type backend_output;
 
-                        if (n_gpu_layers > int(n_layer)) {
+			if (n_gpu_layers > int(n_layer)) {
 #ifdef GGML_USE_CUBLAS
-                            if (n_gpu_layers > int(n_layer + 1)) {
-                                LLAMA_LOG_ERROR("%s: CUDA backend missing Persimmon CUDA ops, can offload at most %ld layers. See: https://github.com/ggerganov/llama.cpp/issues/4038\n",
-                                    __func__, n_layer + 1);
-                                throw std::runtime_error("Persimmon CUDA offload failed");
-                            }
+			    if (n_gpu_layers > int(n_layer + 1)) {
+				LLAMA_LOG_ERROR("%s: CUDA backend missing Persimmon CUDA ops, can offload at most %ld layers. See: https://github.com/ggerganov/llama.cpp/issues/4038\n",
+				    __func__, n_layer + 1);
+				throw std::runtime_error("Persimmon CUDA offload failed");
+			    }
 #endif
-                            // norm is not performance relevant on its own but keeping it in VRAM reduces data copying
-                            // on Windows however this is detrimental unless everything is on the GPU
+			    // norm is not performance relevant on its own but keeping it in VRAM reduces data copying
+			    // on Windows however this is detrimental unless everything is on the GPU
 #ifndef _WIN32
-                            backend_norm = llama_backend_offload;
+			    backend_norm = llama_backend_offload;
 #else
-                            backend_norm = n_gpu_layers <= (int) n_layer + 2 ? GGML_BACKEND_CPU : llama_backend_offload;
+			    backend_norm = n_gpu_layers <= (int) n_layer + 2 ? GGML_BACKEND_CPU : llama_backend_offload;
 #endif // _WIN32
 
-                            backend_output = llama_backend_offload_split;
-                        } else {
-                            backend_norm   = GGML_BACKEND_CPU;
-                            backend_output = GGML_BACKEND_CPU;
-                        }
+			    backend_output = llama_backend_offload_split;
+			} else {
+			    backend_norm   = GGML_BACKEND_CPU;
+			    backend_output = GGML_BACKEND_CPU;
+			}
 
-                        model.output_norm    = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "weight"), {n_embd},          backend_norm);
-                        model.output_norm_b  = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "bias"),   {n_embd},          backend_norm);
-                        model.output         = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT,      "weight"), {n_embd, n_vocab}, backend_output);
+			model.output_norm    = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "weight"), {n_embd},          backend_norm);
+			model.output_norm_b  = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "bias"),   {n_embd},          backend_norm);
+			model.output         = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT,      "weight"), {n_embd, n_vocab}, backend_output);
 
-                        if (backend_norm == GGML_BACKEND_GPU) {
+			if (backend_norm == GGML_BACKEND_GPU) {
 			  fprintf(stderr, "vram_weights16 '%ld'\n", vram_weights);
-                            vram_weights += ggml_nbytes(model.output_norm);
+			    vram_weights += ggml_nbytes(model.output_norm);
 			  fprintf(stderr, "vram_weights17 '%ld'\n", vram_weights);
-                            vram_weights += ggml_nbytes(model.output_norm_b);
-                        }
-                        if (backend_output == GGML_BACKEND_GPU_SPLIT) {
+			    vram_weights += ggml_nbytes(model.output_norm_b);
+			}
+			if (backend_output == GGML_BACKEND_GPU_SPLIT) {
 			  fprintf(stderr, "vram_weights18 '%ld'\n", vram_weights);
-                            vram_weights += ggml_nbytes(model.output);
-                        }
-                    }
+			    vram_weights += ggml_nbytes(model.output);
+			}
+		    }
 
-                    const uint32_t n_ff = hparams.n_ff;
-                    const int i_gpu_start = n_layer - n_gpu_layers;
-                    model.layers.resize(n_layer);
-                    for (uint32_t i = 0; i < n_layer; ++i) {
-                        const ggml_backend_type backend = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload;
-                        const ggml_backend_type backend_split = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload_split;
-                        auto & layer = model.layers[i];
-                        layer.attn_norm     = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM,   "weight", i), {n_embd}, backend);
-                        layer.attn_norm_b   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM,   "bias",   i), {n_embd}, backend);
-                        layer.wqkv          = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_QKV,    "weight", i), {n_embd, n_embd + 2*n_embd_gqa}, backend_split);
-                        layer.bqkv          = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_QKV,    "bias",   i), {n_embd + 2*n_embd_gqa},         backend);
-                        layer.wo            = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT,    "weight", i), {n_embd, n_embd},   backend_split);
-                        layer.bo            = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT,    "bias",   i), {n_embd},           backend);
-                        layer.ffn_down      = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN,    "weight", i), {n_ff, n_embd}, backend_split);
-                        layer.ffn_down_b    = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN,    "bias",   i), {n_embd},       backend);
-                        layer.ffn_up        = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,      "weight", i), {n_embd,   n_ff}, backend_split);
-                        layer.ffn_up_b      = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,      "bias",   i), {n_ff},           backend);
-                        layer.ffn_norm      = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM,    "weight", i), {n_embd}, backend);
-                        layer.ffn_norm_b    = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM,    "bias",   i), {n_embd}, backend);
-                        layer.attn_q_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_Q_NORM, "weight", i), {64}, backend);
-                        layer.attn_q_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_Q_NORM, "bias",   i), {64}, backend);
-                        layer.attn_k_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_K_NORM, "weight", i), {64}, backend);
-                        layer.attn_k_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_K_NORM, "bias",   i), {64}, backend);
-                    }
-                } break;
-            case LLM_ARCH_BLOOM:
-                {
-                    // TODO: CPU-only for now
+		    const uint32_t n_ff = hparams.n_ff;
+		    const int i_gpu_start = n_layer - n_gpu_layers;
+		    model.layers.resize(n_layer);
+		    for (uint32_t i = 0; i < n_layer; ++i) {
+			const ggml_backend_type backend = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload;
+			const ggml_backend_type backend_split = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload_split;
+			auto & layer = model.layers[i];
+			layer.attn_norm     = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM,   "weight", i), {n_embd}, backend);
+			layer.attn_norm_b   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM,   "bias",   i), {n_embd}, backend);
+			layer.wqkv          = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_QKV,    "weight", i), {n_embd, n_embd + 2*n_embd_gqa}, backend_split);
+			layer.bqkv          = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_QKV,    "bias",   i), {n_embd + 2*n_embd_gqa},         backend);
+			layer.wo            = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT,    "weight", i), {n_embd, n_embd},   backend_split);
+			layer.bo            = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT,    "bias",   i), {n_embd},           backend);
+			layer.ffn_down      = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN,    "weight", i), {n_ff, n_embd}, backend_split);
+			layer.ffn_down_b    = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN,    "bias",   i), {n_embd},       backend);
+			layer.ffn_up        = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,      "weight", i), {n_embd,   n_ff}, backend_split);
+			layer.ffn_up_b      = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,      "bias",   i), {n_ff},           backend);
+			layer.ffn_norm      = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM,    "weight", i), {n_embd}, backend);
+			layer.ffn_norm_b    = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM,    "bias",   i), {n_embd}, backend);
+			layer.attn_q_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_Q_NORM, "weight", i), {64}, backend);
+			layer.attn_q_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_Q_NORM, "bias",   i), {64}, backend);
+			layer.attn_k_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_K_NORM, "weight", i), {64}, backend);
+			layer.attn_k_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_K_NORM, "bias",   i), {64}, backend);
+		    }
+		} break;
+	    case LLM_ARCH_BLOOM:
+		{
+		    // TODO: CPU-only for now
 
-                    model.tok_embd   = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD,      "weight"), {n_embd, n_vocab}, GGML_BACKEND_CPU);
-                    model.tok_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD_NORM, "weight"), {n_embd},          GGML_BACKEND_CPU);
-                    model.tok_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD_NORM, "bias"),   {n_embd},          GGML_BACKEND_CPU);
+		    model.tok_embd   = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD,      "weight"), {n_embd, n_vocab}, GGML_BACKEND_CPU);
+		    model.tok_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD_NORM, "weight"), {n_embd},          GGML_BACKEND_CPU);
+		    model.tok_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD_NORM, "bias"),   {n_embd},          GGML_BACKEND_CPU);
 
-                    // output
-                    {
-                        ggml_backend_type backend_norm;
-                        ggml_backend_type backend_output;
+		    // output
+		    {
+			ggml_backend_type backend_norm;
+			ggml_backend_type backend_output;
 
-                        if (n_gpu_layers > int(n_layer)) {
-                            // norm is not performance relevant on its own but keeping it in VRAM reduces data copying
-                            // on Windows however this is detrimental unless everything is on the GPU
+			if (n_gpu_layers > int(n_layer)) {
+			    // norm is not performance relevant on its own but keeping it in VRAM reduces data copying
+			    // on Windows however this is detrimental unless everything is on the GPU
 #ifndef _WIN32
-                            backend_norm = llama_backend_offload;
+			    backend_norm = llama_backend_offload;
 #else
-                            backend_norm = n_gpu_layers <= (int) n_layer + 2 ? GGML_BACKEND_CPU : llama_backend_offload;
+			    backend_norm = n_gpu_layers <= (int) n_layer + 2 ? GGML_BACKEND_CPU : llama_backend_offload;
 #endif // _WIN32
 
-                            backend_output = llama_backend_offload_split;
-                        } else {
-                            backend_norm   = GGML_BACKEND_CPU;
-                            backend_output = GGML_BACKEND_CPU;
-                        }
+			    backend_output = llama_backend_offload_split;
+			} else {
+			    backend_norm   = GGML_BACKEND_CPU;
+			    backend_output = GGML_BACKEND_CPU;
+			}
 
-                        model.output_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "weight"), {n_embd},          backend_norm);
-                        model.output_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "bias"),   {n_embd},          backend_norm);
-                        model.output        = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT,      "weight"), {n_embd, n_vocab}, backend_output);
+			model.output_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "weight"), {n_embd},          backend_norm);
+			model.output_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "bias"),   {n_embd},          backend_norm);
+			model.output        = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT,      "weight"), {n_embd, n_vocab}, backend_output);
 
-                        if (backend_norm == GGML_BACKEND_GPU) {
+			if (backend_norm == GGML_BACKEND_GPU) {
 			  fprintf(stderr, "vram_weights19 '%ld'\n", vram_weights);
-                            vram_weights += ggml_nbytes(model.output_norm);
+			    vram_weights += ggml_nbytes(model.output_norm);
 			  fprintf(stderr, "vram_weights20 '%ld'\n", vram_weights);
-                            vram_weights += ggml_nbytes(model.output_norm_b);
-                        }
-                        if (backend_output == GGML_BACKEND_GPU_SPLIT) {
+			    vram_weights += ggml_nbytes(model.output_norm_b);
+			}
+			if (backend_output == GGML_BACKEND_GPU_SPLIT) {
 			  fprintf(stderr, "vram_weights21 '%ld'\n", vram_weights);
-                            vram_weights += ggml_nbytes(model.output);
-                        }
-                    }
+			    vram_weights += ggml_nbytes(model.output);
+			}
+		    }
 
-                    const uint32_t n_ff = hparams.n_ff;
+		    const uint32_t n_ff = hparams.n_ff;
 
-                    const int i_gpu_start = n_layer - n_gpu_layers;
+		    const int i_gpu_start = n_layer - n_gpu_layers;
 
-                    model.layers.resize(n_layer);
+		    model.layers.resize(n_layer);
 
-                    for (uint32_t i = 0; i < n_layer; ++i) {
-                        const ggml_backend_type backend       = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload; // NOLINT
-                        const ggml_backend_type backend_split = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload_split; // NOLINT
+		    for (uint32_t i = 0; i < n_layer; ++i) {
+			const ggml_backend_type backend       = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload; // NOLINT
+			const ggml_backend_type backend_split = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload_split; // NOLINT
 
-                        auto & layer = model.layers[i];
+			auto & layer = model.layers[i];
 
-                        layer.attn_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM,   "weight", i), {n_embd}, backend);
-                        layer.attn_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM,   "bias", i),   {n_embd}, backend);
+			layer.attn_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM,   "weight", i), {n_embd}, backend);
+			layer.attn_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM,   "bias", i),   {n_embd}, backend);
 
-                        layer.wqkv = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_QKV, "weight", i), {n_embd, n_embd + 2*n_embd_gqa}, backend_split);
-                        layer.bqkv = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_QKV, "bias", i),   {n_embd + 2*n_embd_gqa},         backend);
+			layer.wqkv = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_QKV, "weight", i), {n_embd, n_embd + 2*n_embd_gqa}, backend_split);
+			layer.bqkv = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_QKV, "bias", i),   {n_embd + 2*n_embd_gqa},         backend);
 
-                        layer.wo   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd, n_embd},                backend_split);
-                        layer.bo   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT, "bias", i),   {n_embd},                        backend);
+			layer.wo   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd, n_embd},                backend_split);
+			layer.bo   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT, "bias", i),   {n_embd},                        backend);
 
-                        layer.ffn_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM, "weight", i), {n_embd}, backend);
-                        layer.ffn_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM, "bias", i),   {n_embd}, backend);
+			layer.ffn_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM, "weight", i), {n_embd}, backend);
+			layer.ffn_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM, "bias", i),   {n_embd}, backend);
 
-                        layer.ffn_down   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN, "weight", i), {n_ff, n_embd}, backend_split);
-                        layer.ffn_down_b = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN, "bias", i),   {n_embd},       backend);
+			layer.ffn_down   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN, "weight", i), {n_ff, n_embd}, backend_split);
+			layer.ffn_down_b = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN, "bias", i),   {n_embd},       backend);
 
-                        layer.ffn_up   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,   "weight", i), {n_embd,   n_ff}, backend_split);
-                        layer.ffn_up_b = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,   "bias", i),   {n_ff},           backend);
+			layer.ffn_up   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,   "weight", i), {n_embd,   n_ff}, backend_split);
+			layer.ffn_up_b = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,   "bias", i),   {n_ff},           backend);
 
-                        if (backend == GGML_BACKEND_GPU) {
+			if (backend == GGML_BACKEND_GPU) {
 			  fprintf(stderr, "vram_weights22 '%ld'\n", vram_weights);
-                            vram_weights +=
-                                ggml_nbytes(layer.attn_norm) + ggml_nbytes(layer.attn_norm_b) +
-                                ggml_nbytes(layer.wqkv)      + ggml_nbytes(layer.bqkv)        +
-                                ggml_nbytes(layer.wo)        + ggml_nbytes(layer.bo)          +
-                                ggml_nbytes(layer.ffn_norm)  + ggml_nbytes(layer.ffn_norm_b)  +
-                                ggml_nbytes(layer.ffn_up)    + ggml_nbytes(layer.ffn_up_b)    +
-                                ggml_nbytes(layer.ffn_down)  + ggml_nbytes(layer.ffn_down_b);
-                        }
-                    }
-                } break;
-            case LLM_ARCH_MPT:
-                {
-                    model.tok_embd = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD, "weight"), {n_embd, n_vocab}, GGML_BACKEND_CPU);
+			    vram_weights +=
+				ggml_nbytes(layer.attn_norm) + ggml_nbytes(layer.attn_norm_b) +
+				ggml_nbytes(layer.wqkv)      + ggml_nbytes(layer.bqkv)        +
+				ggml_nbytes(layer.wo)        + ggml_nbytes(layer.bo)          +
+				ggml_nbytes(layer.ffn_norm)  + ggml_nbytes(layer.ffn_norm_b)  +
+				ggml_nbytes(layer.ffn_up)    + ggml_nbytes(layer.ffn_up_b)    +
+				ggml_nbytes(layer.ffn_down)  + ggml_nbytes(layer.ffn_down_b);
+			}
+		    }
+		} break;
+	    case LLM_ARCH_MPT:
+		{
+		    model.tok_embd = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD, "weight"), {n_embd, n_vocab}, GGML_BACKEND_CPU);
 
-                    // output
-                    {
-                        ggml_backend_type backend_norm;
-                        ggml_backend_type backend_output;
+		    // output
+		    {
+			ggml_backend_type backend_norm;
+			ggml_backend_type backend_output;
 
-                        if (n_gpu_layers > int(n_layer)) {
-                            // norm is not performance relevant on its own but keeping it in VRAM reduces data copying
-                            // on Windows however this is detrimental unless everything is on the GPU
+			if (n_gpu_layers > int(n_layer)) {
+			    // norm is not performance relevant on its own but keeping it in VRAM reduces data copying
+			    // on Windows however this is detrimental unless everything is on the GPU
 #ifndef _WIN32
-                            backend_norm = llama_backend_offload;
+			    backend_norm = llama_backend_offload;
 #else
-                            backend_norm = n_gpu_layers <= (int) n_layer + 2 ? GGML_BACKEND_CPU : llama_backend_offload;
+			    backend_norm = n_gpu_layers <= (int) n_layer + 2 ? GGML_BACKEND_CPU : llama_backend_offload;
 #endif // _WIN32
 
-                            backend_output = llama_backend_offload_split;
-                        } else {
-                            backend_norm   = GGML_BACKEND_CPU;
-                            backend_output = GGML_BACKEND_CPU;
-                        }
+			    backend_output = llama_backend_offload_split;
+			} else {
+			    backend_norm   = GGML_BACKEND_CPU;
+			    backend_output = GGML_BACKEND_CPU;
+			}
 
-                        model.output_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "weight"), {n_embd},          backend_norm);
-                        model.output        = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT,      "weight"), {n_embd, n_vocab}, backend_output);
+			model.output_norm   = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "weight"), {n_embd},          backend_norm);
+			model.output        = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT,      "weight"), {n_embd, n_vocab}, backend_output);
 
-                        if (backend_norm == GGML_BACKEND_GPU) {
+			if (backend_norm == GGML_BACKEND_GPU) {
 			  fprintf(stderr, "vram_weights23 '%ld'\n", vram_weights);
-                            vram_weights += ggml_nbytes(model.output_norm);
-                        }
-                        if (backend_output == GGML_BACKEND_GPU_SPLIT) {
+			    vram_weights += ggml_nbytes(model.output_norm);
+			}
+			if (backend_output == GGML_BACKEND_GPU_SPLIT) {
 			  fprintf(stderr, "vram_weights24 '%ld'\n", vram_weights);
-                            vram_weights += ggml_nbytes(model.output);
-                        }
-                    }
+			    vram_weights += ggml_nbytes(model.output);
+			}
+		    }
 
-                    const uint32_t n_ff = hparams.n_ff;
+		    const uint32_t n_ff = hparams.n_ff;
 
-                    const int i_gpu_start = n_layer - n_gpu_layers;
+		    const int i_gpu_start = n_layer - n_gpu_layers;
 
-                    model.layers.resize(n_layer);
+		    model.layers.resize(n_layer);
 
-                    for (uint32_t i = 0; i < n_layer; ++i) {
-                        const ggml_backend_type backend = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload; // NOLINT
-                        const ggml_backend_type backend_split = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload_split; // NOLINT
+		    for (uint32_t i = 0; i < n_layer; ++i) {
+			const ggml_backend_type backend = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload; // NOLINT
+			const ggml_backend_type backend_split = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload_split; // NOLINT
 
-                        auto & layer = model.layers[i];
+			auto & layer = model.layers[i];
 
-                        layer.attn_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM, "weight", i), {n_embd}, backend);
-                        layer.wqkv = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_QKV, "weight", i), {n_embd, n_embd + 2*n_embd_gqa}, backend_split);
-                        layer.wo   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd, n_embd},                backend_split);
+			layer.attn_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM, "weight", i), {n_embd}, backend);
+			layer.wqkv = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_QKV, "weight", i), {n_embd, n_embd + 2*n_embd_gqa}, backend_split);
+			layer.wo   = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd, n_embd},                backend_split);
 
-                        layer.ffn_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM, "weight", i), {n_embd}, backend);
+			layer.ffn_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM, "weight", i), {n_embd}, backend);
 
-                        layer.ffn_down = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN, "weight", i), {  n_ff, n_embd}, backend_split);
-                        layer.ffn_up   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,   "weight", i), {n_embd,   n_ff}, backend_split);
+			layer.ffn_down = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN, "weight", i), {  n_ff, n_embd}, backend_split);
+			layer.ffn_up   = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,   "weight", i), {n_embd,   n_ff}, backend_split);
 
-                        if (backend == GGML_BACKEND_GPU) {
+			if (backend == GGML_BACKEND_GPU) {
 			  fprintf(stderr, "vram_weights25 '%ld'\n", vram_weights);
-                            vram_weights +=
-                                ggml_nbytes(layer.attn_norm) +
-                                ggml_nbytes(layer.wqkv)      +
-                                ggml_nbytes(layer.wo)        +
-                                ggml_nbytes(layer.ffn_norm)  +
-                                ggml_nbytes(layer.ffn_down)  +
-                                ggml_nbytes(layer.ffn_up);
-                        }
-                    }
-                } break;
-            case LLM_ARCH_STABLELM:
-                {
-                    model.tok_embd = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD, "weight"), {n_embd, n_vocab}, GGML_BACKEND_CPU);
+			    vram_weights +=
+				ggml_nbytes(layer.attn_norm) +
+				ggml_nbytes(layer.wqkv)      +
+				ggml_nbytes(layer.wo)        +
+				ggml_nbytes(layer.ffn_norm)  +
+				ggml_nbytes(layer.ffn_down)  +
+				ggml_nbytes(layer.ffn_up);
+			}
+		    }
+		} break;
+	    case LLM_ARCH_STABLELM:
+		{
+		    model.tok_embd = ml.create_tensor(ctx, tn(LLM_TENSOR_TOKEN_EMBD, "weight"), {n_embd, n_vocab}, GGML_BACKEND_CPU);
 
-                    // output
-                    {
-                        ggml_backend_type backend_norm;
-                        ggml_backend_type backend_output;
+		    // output
+		    {
+			ggml_backend_type backend_norm;
+			ggml_backend_type backend_output;
 
-                        if (n_gpu_layers > int(n_layer)) {
-                            // norm is not performance relevant on its own but keeping it in VRAM reduces data copying
-                            // on Windows however this is detrimental unless everything is on the GPU
+			if (n_gpu_layers > int(n_layer)) {
+			    // norm is not performance relevant on its own but keeping it in VRAM reduces data copying
+			    // on Windows however this is detrimental unless everything is on the GPU
 #ifndef _WIN32
-                            backend_norm = llama_backend_offload;
+			    backend_norm = llama_backend_offload;
 #else
-                            backend_norm = n_gpu_layers <= (int) n_layer + 2 ? GGML_BACKEND_CPU : llama_backend_offload;
+			    backend_norm = n_gpu_layers <= (int) n_layer + 2 ? GGML_BACKEND_CPU : llama_backend_offload;
 #endif // _WIN32
 
-                            backend_output = llama_backend_offload_split;
-                        } else {
-                            backend_norm   = GGML_BACKEND_CPU;
-                            backend_output = GGML_BACKEND_CPU;
-                        }
+			    backend_output = llama_backend_offload_split;
+			} else {
+			    backend_norm   = GGML_BACKEND_CPU;
+			    backend_output = GGML_BACKEND_CPU;
+			}
 
-                        model.output_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "bias"), {n_embd},          backend_norm);
-                        model.output_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "weight"), {n_embd},          backend_norm);
-                        model.output      = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT,      "weight"), {n_embd, n_vocab}, backend_output);
+			model.output_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "bias"), {n_embd},          backend_norm);
+			model.output_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT_NORM, "weight"), {n_embd},          backend_norm);
+			model.output      = ml.create_tensor(ctx, tn(LLM_TENSOR_OUTPUT,      "weight"), {n_embd, n_vocab}, backend_output);
 
-                        if (backend_norm == GGML_BACKEND_GPU) {
-                            vram_weights += ggml_nbytes(model.output_norm);
-                        }
-                        if (backend_output == GGML_BACKEND_GPU_SPLIT) {
-                            vram_weights += ggml_nbytes(model.output);
-                        }
-                    }
+			if (backend_norm == GGML_BACKEND_GPU) {
+			    vram_weights += ggml_nbytes(model.output_norm);
+			}
+			if (backend_output == GGML_BACKEND_GPU_SPLIT) {
+			    vram_weights += ggml_nbytes(model.output);
+			}
+		    }
 
-                    const uint32_t n_ff = hparams.n_ff;
+		    const uint32_t n_ff = hparams.n_ff;
 
-                    const int i_gpu_start = n_layer - n_gpu_layers;
+		    const int i_gpu_start = n_layer - n_gpu_layers;
 
-                    model.layers.resize(n_layer);
+		    model.layers.resize(n_layer);
 
-                    for (uint32_t i = 0; i < n_layer; ++i) {
-                        /*
-                        llama_model_loader: - tensor    4:         blk.0.attn_output.weight f16      [  2560,  2560,     1,     1 ]
-                        */
-                        const ggml_backend_type backend = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload; // NOLINT
-                        const ggml_backend_type backend_split = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload_split; // NOLINT
+		    for (uint32_t i = 0; i < n_layer; ++i) {
+			/*
+			llama_model_loader: - tensor    4:         blk.0.attn_output.weight f16      [  2560,  2560,     1,     1 ]
+			*/
+			const ggml_backend_type backend = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload; // NOLINT
+			const ggml_backend_type backend_split = int(i) < i_gpu_start ? GGML_BACKEND_CPU : llama_backend_offload_split; // NOLINT
 
-                        auto & layer = model.layers[i];
+			auto & layer = model.layers[i];
 
-                        layer.attn_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM, "weight", i), {n_embd}, backend);
-                        layer.attn_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM, "bias", i), {n_embd}, backend);
+			layer.attn_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM, "weight", i), {n_embd}, backend);
+			layer.attn_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_NORM, "bias", i), {n_embd}, backend);
 
-                        layer.wq = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_Q,   "weight", i), {n_embd, n_embd},     backend_split);
-                        layer.wk = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_K,   "weight", i), {n_embd, n_embd_gqa}, backend_split);
-                        layer.wv = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_V,   "weight", i), {n_embd, n_embd_gqa}, backend_split);
-                        layer.wo = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd, n_embd},     backend_split);
+			layer.wq = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_Q,   "weight", i), {n_embd, n_embd},     backend_split);
+			layer.wk = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_K,   "weight", i), {n_embd, n_embd_gqa}, backend_split);
+			layer.wv = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_V,   "weight", i), {n_embd, n_embd_gqa}, backend_split);
+			layer.wo = ml.create_tensor(ctx, tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd, n_embd},     backend_split);
 
-                        layer.ffn_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM, "weight", i), {n_embd}, backend);
-                        layer.ffn_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM, "bias", i), {n_embd}, backend);
+			layer.ffn_norm = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM, "weight", i), {n_embd}, backend);
+			layer.ffn_norm_b = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_NORM, "bias", i), {n_embd}, backend);
 
-                        layer.ffn_gate = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_GATE, "weight", i), {n_embd,   n_ff}, backend_split);
-                        layer.ffn_down = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN, "weight", i), {  n_ff, n_embd}, backend_split);
-                        layer.ffn_up = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,   "weight", i), {n_embd,   n_ff}, backend_split);
+			layer.ffn_gate = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_GATE, "weight", i), {n_embd,   n_ff}, backend_split);
+			layer.ffn_down = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_DOWN, "weight", i), {  n_ff, n_embd}, backend_split);
+			layer.ffn_up = ml.create_tensor(ctx, tn(LLM_TENSOR_FFN_UP,   "weight", i), {n_embd,   n_ff}, backend_split);
 
-                        if (backend == GGML_BACKEND_GPU) {
-                            vram_weights +=
-                                ggml_nbytes(layer.attn_norm) + ggml_nbytes(layer.wq)       + ggml_nbytes(layer.wk)       +
-                                ggml_nbytes(layer.wv)        + ggml_nbytes(layer.wo)       + ggml_nbytes(layer.ffn_norm) +
-                                ggml_nbytes(layer.ffn_gate)  + ggml_nbytes(layer.ffn_down) + ggml_nbytes(layer.ffn_up);
-                        }
-                    }
-                } break;
+			if (backend == GGML_BACKEND_GPU) {
+			    vram_weights +=
+				ggml_nbytes(layer.attn_norm) + ggml_nbytes(layer.wq)       + ggml_nbytes(layer.wk)       +
+				ggml_nbytes(layer.wv)        + ggml_nbytes(layer.wo)       + ggml_nbytes(layer.ffn_norm) +
+				ggml_nbytes(layer.ffn_gate)  + ggml_nbytes(layer.ffn_down) + ggml_nbytes(layer.ffn_up);
+			}
+		    }
+		} break;
 
-            default:
-                throw std::runtime_error("unknown architecture");
-        }
+	    default:
+		throw std::runtime_error("unknown architecture");
+	}
     }
 
     ml.done_getting_tensors();
 
     // print memory requirements
     {
-        // this is the total memory required to run the inference
-        size_t mem_required =
-            ctx_size +
-            mmapped_size - vram_weights; // weights in VRAM not in memory
+	// this is the total memory required to run the inference
+	size_t mem_required =
+	    ctx_size +
+	    mmapped_size - vram_weights; // weights in VRAM not in memory
 
-        LLAMA_LOG_INFO("%s: mem required  = %7.2f MiB\n", __func__, mem_required / 1024.0 / 1024.0);
+	LLAMA_LOG_INFO("%s: mem required  = %7.2f MiB\n", __func__, mem_required / 1024.0 / 1024.0);
 
 #if defined(GGML_USE_CUBLAS) || defined(GGML_USE_CLBLAST)
-        const int n_gpu = std::min(n_gpu_layers, int(hparams.n_layer));
+	const int n_gpu = std::min(n_gpu_layers, int(hparams.n_layer));
 
-        LLAMA_LOG_INFO("%s: offloading %d repeating layers to GPU\n", __func__, n_gpu);
-        if (n_gpu_layers > (int) hparams.n_layer) {
-            LLAMA_LOG_INFO("%s: offloading non-repeating layers to GPU\n", __func__);
-        }
+	LLAMA_LOG_INFO("%s: offloading %d repeating layers to GPU\n", __func__, n_gpu);
+	if (n_gpu_layers > (int) hparams.n_layer) {
+	    LLAMA_LOG_INFO("%s: offloading non-repeating layers to GPU\n", __func__);
+	}
 
 #ifdef GGML_USE_CUBLAS
-        const int max_backend_supported_layers = hparams.n_layer + 3;
-        const int max_offloadable_layers       = hparams.n_layer + 3;
+	const int max_backend_supported_layers = hparams.n_layer + 3;
+	const int max_offloadable_layers       = hparams.n_layer + 3;
 #elif GGML_USE_CLBLAST
-        const int max_backend_supported_layers = hparams.n_layer + 1;
-        const int max_offloadable_layers       = hparams.n_layer + 1;
+	const int max_backend_supported_layers = hparams.n_layer + 1;
+	const int max_offloadable_layers       = hparams.n_layer + 1;
 #endif // GGML_USE_CUBLAS
 
-        LLAMA_LOG_INFO("%s: offloaded %d/%d layers to GPU\n", __func__, std::min(n_gpu_layers, max_offloadable_layers), max_backend_supported_layers);
-        LLAMA_LOG_INFO("%s: VRAM used: %.2f MiB\n", __func__, vram_weights / 1024.0 / 1024.0);
+	LLAMA_LOG_INFO("%s: offloaded %d/%d layers to GPU\n", __func__, std::min(n_gpu_layers, max_offloadable_layers), max_backend_supported_layers);
+	LLAMA_LOG_INFO("%s: VRAM used: %.2f MiB\n", __func__, vram_weights / 1024.0 / 1024.0);
 #else
-        (void) n_gpu_layers;
+	(void) n_gpu_layers;
 #endif // defined(GGML_USE_CUBLAS) || defined(GGML_USE_CLBLAST)
     }
 
     // populate `tensors_by_name`
     for (int i = 0; i < ml.n_tensors; ++i) {
-        struct ggml_tensor * cur = ggml_get_tensor(ctx, ml.get_tensor_name(i));
-        model.tensors_by_name.emplace_back(ggml_get_name(cur), cur);
+	struct ggml_tensor * cur = ggml_get_tensor(ctx, ml.get_tensor_name(i));
+	model.tensors_by_name.emplace_back(ggml_get_name(cur), cur);
     }
 
     (void) tensor_split;
 #ifdef GGML_USE_CUBLAS
     {
-        ggml_cuda_set_tensor_split(tensor_split);
+	ggml_cuda_set_tensor_split(tensor_split);
     }
 #endif
 
     ml.load_all_data(ctx, progress_callback, progress_callback_user_data, use_mlock ? &model.mlock_mmap : NULL);
 
     if (progress_callback) {
-        progress_callback(1.0f, progress_callback_user_data);
+	progress_callback(1.0f, progress_callback_user_data);
     }
 
     model.mapping = std::move(ml.mapping);
@@ -3393,32 +3393,32 @@ static void llm_load_tensors(
 
 static bool llama_model_load(const std::string & fname, llama_model & model, const llama_model_params & params) {
     try {
-        llama_model_loader ml(fname, params.use_mmap);
+	llama_model_loader ml(fname, params.use_mmap);
 
-        model.hparams.vocab_only = params.vocab_only;
+	model.hparams.vocab_only = params.vocab_only;
 
-        llm_load_arch   (ml, model);
-        llm_load_hparams(ml, model);
-        llm_load_vocab  (ml, model);
+	llm_load_arch   (ml, model);
+	llm_load_hparams(ml, model);
+	llm_load_vocab  (ml, model);
 
-        llm_load_print_meta(ml, model);
+	llm_load_print_meta(ml, model);
 
-        if (model.hparams.n_vocab != model.vocab.id_to_token.size()) {
-            throw std::runtime_error("vocab size mismatch");
-        }
+	if (model.hparams.n_vocab != model.vocab.id_to_token.size()) {
+	    throw std::runtime_error("vocab size mismatch");
+	}
 
-        if (params.vocab_only) {
-            LLAMA_LOG_INFO("%s: vocab only - skipping tensors\n", __func__);
-            return true;
-        }
+	if (params.vocab_only) {
+	    LLAMA_LOG_INFO("%s: vocab only - skipping tensors\n", __func__);
+	    return true;
+	}
 
-        llm_load_tensors(
-            ml, model, params.n_gpu_layers, params.main_gpu, params.tensor_split, params.use_mlock,
-            params.progress_callback, params.progress_callback_user_data
-        );
+	llm_load_tensors(
+	    ml, model, params.n_gpu_layers, params.main_gpu, params.tensor_split, params.use_mlock,
+	    params.progress_callback, params.progress_callback_user_data
+	);
     } catch (const std::exception & err) {
-        LLAMA_LOG_ERROR("error loading model: %s\n", err.what());
-        return false;
+	LLAMA_LOG_ERROR("error loading model: %s\n", err.what());
+	return false;
     }
 
     return true;
@@ -3454,26 +3454,26 @@ enum llm_norm_type {
 };
 
 static struct ggml_tensor * llm_build_inp_embd(
-        struct ggml_context * ctx,
-        const llama_hparams & hparams,
-          const llama_batch & batch,
-         struct ggml_tensor * tok_embd,
-         const llm_build_cb & cb) {
+	struct ggml_context * ctx,
+	const llama_hparams & hparams,
+	  const llama_batch & batch,
+	 struct ggml_tensor * tok_embd,
+	 const llm_build_cb & cb) {
     const int64_t n_embd = hparams.n_embd;
 
     struct ggml_tensor * inpL;
 
     if (batch.token) {
-        struct ggml_tensor * inp_tokens = ggml_new_tensor_1d(ctx, GGML_TYPE_I32, batch.n_tokens);
-        cb(inp_tokens, "inp_tokens", -1);
+	struct ggml_tensor * inp_tokens = ggml_new_tensor_1d(ctx, GGML_TYPE_I32, batch.n_tokens);
+	cb(inp_tokens, "inp_tokens", -1);
 
-        inpL = ggml_get_rows(ctx, tok_embd, inp_tokens);
+	inpL = ggml_get_rows(ctx, tok_embd, inp_tokens);
     } else {
 #ifdef GGML_USE_MPI
-        GGML_ASSERT(false && "not implemented");
+	GGML_ASSERT(false && "not implemented");
 #endif
 
-        inpL = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, n_embd, batch.n_tokens);
+	inpL = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, n_embd, batch.n_tokens);
     }
 
     return inpL;
@@ -3487,11 +3487,11 @@ static void llm_build_k_shift(
       const llama_cparams & cparams,
      const llama_kv_cache & kv,
        struct ggml_cgraph * graph,
-            llm_rope_type   type,
-                  int64_t   n_ctx,
-                  int64_t   n_rot,
-                  float     freq_base,
-                  float     freq_scale,
+	    llm_rope_type   type,
+		  int64_t   n_ctx,
+		  int64_t   n_rot,
+		  float     freq_base,
+		  float     freq_scale,
        const llm_build_cb & cb) {
     const int64_t n_layer     = hparams.n_layer;
     const int64_t n_head_kv   = hparams.n_head_kv;
@@ -3511,39 +3511,39 @@ static void llm_build_k_shift(
     int rope_type = 0;
 
     switch (type) {
-        case LLM_ROPE:      rope_type = 0; break;
-        case LLM_ROPE_NEOX: rope_type = 2; break;
-        case LLM_ROPE_GLM:  rope_type = 4; break;
+	case LLM_ROPE:      rope_type = 0; break;
+	case LLM_ROPE_NEOX: rope_type = 2; break;
+	case LLM_ROPE_GLM:  rope_type = 4; break;
     }
 
     for (int il = 0; il < n_layer; ++il) {
-        struct ggml_tensor * tmp =
-            // we rotate only the first n_rot dimensions
-            ggml_rope_custom_inplace(ctx,
-                    ggml_view_3d(ctx, kv.k,
-                        n_rot, n_head_kv, n_ctx,
-                        ggml_element_size(kv.k)*n_embd_head,
-                        ggml_element_size(kv.k)*n_embd_gqa,
-                        ggml_element_size(kv.k)*n_embd_gqa*n_ctx*il),
-                    K_shift, n_rot, rope_type, 0, n_orig_ctx, freq_base, freq_scale,
-                    ext_factor, attn_factor, beta_fast, beta_slow);
-        cb(tmp, "K_shifted", il);
-        ggml_build_forward_expand(graph, tmp);
+	struct ggml_tensor * tmp =
+	    // we rotate only the first n_rot dimensions
+	    ggml_rope_custom_inplace(ctx,
+		    ggml_view_3d(ctx, kv.k,
+			n_rot, n_head_kv, n_ctx,
+			ggml_element_size(kv.k)*n_embd_head,
+			ggml_element_size(kv.k)*n_embd_gqa,
+			ggml_element_size(kv.k)*n_embd_gqa*n_ctx*il),
+		    K_shift, n_rot, rope_type, 0, n_orig_ctx, freq_base, freq_scale,
+		    ext_factor, attn_factor, beta_fast, beta_slow);
+	cb(tmp, "K_shifted", il);
+	ggml_build_forward_expand(graph, tmp);
     }
 }
 
 static void llm_build_kv_store(
-        struct ggml_context * ctx,
-        const llama_hparams & hparams,
+	struct ggml_context * ctx,
+	const llama_hparams & hparams,
        const llama_kv_cache & kv,
-         struct ggml_cgraph * graph,
-         struct ggml_tensor * k_cur,
-         struct ggml_tensor * v_cur,
-                    int64_t   n_ctx,
-                    int32_t   n_tokens,
-                    int32_t   kv_head,
-         const llm_build_cb & cb,
-                    int64_t   il) {
+	 struct ggml_cgraph * graph,
+	 struct ggml_tensor * k_cur,
+	 struct ggml_tensor * v_cur,
+		    int64_t   n_ctx,
+		    int32_t   n_tokens,
+		    int32_t   kv_head,
+	 const llm_build_cb & cb,
+		    int64_t   il) {
     const int64_t n_embd_gqa = hparams.n_embd_gqa();
 
     // compute the transposed [n_tokens, n_embd] V matrix
@@ -3552,12 +3552,12 @@ static void llm_build_kv_store(
     cb(v_cur_t, "v_cur_t", il);
 
     struct ggml_tensor * k_cache_view = ggml_view_1d(ctx, kv.k, n_tokens*n_embd_gqa,
-            (ggml_element_size(kv.k)*n_embd_gqa)*(il*n_ctx + kv_head));
+	    (ggml_element_size(kv.k)*n_embd_gqa)*(il*n_ctx + kv_head));
     cb(k_cache_view, "k_cache_view", il);
 
     struct ggml_tensor * v_cache_view = ggml_view_2d(ctx, kv.v, n_tokens, n_embd_gqa,
-            (   n_ctx)*ggml_element_size(kv.v),
-            (il*n_ctx)*ggml_element_size(kv.v)*n_embd_gqa + kv_head*ggml_element_size(kv.v));
+	    (   n_ctx)*ggml_element_size(kv.v),
+	    (il*n_ctx)*ggml_element_size(kv.v)*n_embd_gqa + kv_head*ggml_element_size(kv.v));
     cb(v_cache_view, "v_cache_view", il);
 
     // important: storing RoPE-ed version of K in the KV cache!
@@ -3566,48 +3566,48 @@ static void llm_build_kv_store(
 }
 
 static struct ggml_tensor * llm_build_norm(
-        struct ggml_context * ctx,
-         struct ggml_tensor * cur,
-        const llama_hparams & hparams,
-         struct ggml_tensor * mw,
-         struct ggml_tensor * mb,
-              llm_norm_type   type,
-         const llm_build_cb & cb,
-                        int   il) {
+	struct ggml_context * ctx,
+	 struct ggml_tensor * cur,
+	const llama_hparams & hparams,
+	 struct ggml_tensor * mw,
+	 struct ggml_tensor * mb,
+	      llm_norm_type   type,
+	 const llm_build_cb & cb,
+			int   il) {
     switch (type) {
-        case LLM_NORM:     cur = ggml_norm    (ctx, cur, hparams.f_norm_eps);     break;
-        case LLM_NORM_RMS: cur = ggml_rms_norm(ctx, cur, hparams.f_norm_rms_eps); break;
+	case LLM_NORM:     cur = ggml_norm    (ctx, cur, hparams.f_norm_eps);     break;
+	case LLM_NORM_RMS: cur = ggml_rms_norm(ctx, cur, hparams.f_norm_rms_eps); break;
     }
 
     if (mw || mb) {
-        cb(cur, "norm", il);
+	cb(cur, "norm", il);
     }
 
     if (mw) {
-        cur = ggml_mul(ctx, cur, mw);
-        if (mb) {
-            cb(cur, "norm_w", il);
-        }
+	cur = ggml_mul(ctx, cur, mw);
+	if (mb) {
+	    cb(cur, "norm_w", il);
+	}
     }
 
     if (mb) {
-        cur = ggml_add(ctx, cur, mb);
+	cur = ggml_add(ctx, cur, mb);
     }
 
     return cur;
 }
 
 static struct ggml_tensor * llm_build_ffn(
-        struct ggml_context * ctx,
-         struct ggml_tensor * cur,
-         struct ggml_tensor * up,
-         struct ggml_tensor * up_b,
-         struct ggml_tensor * gate,
-         struct ggml_tensor * gate_b,
-         struct ggml_tensor * down,
-         struct ggml_tensor * down_b,
-            llm_ffn_op_type   type_op,
-          llm_ffn_gate_type   type_gate,
+	struct ggml_context * ctx,
+	 struct ggml_tensor * cur,
+	 struct ggml_tensor * up,
+	 struct ggml_tensor * up_b,
+	 struct ggml_tensor * gate,
+	 struct ggml_tensor * gate_b,
+	 struct ggml_tensor * down,
+	 struct ggml_tensor * down_b,
+	    llm_ffn_op_type   type_op,
+	llm_ffn_gate_type   type_gate,
          const llm_build_cb & cb,
                         int   il) {
     struct ggml_tensor * tmp = ggml_mul_mat(ctx, up, cur);
@@ -6745,7 +6745,8 @@ struct llama_grammar * llama_grammar_init(
         for (pos = rules[i]; pos->type != LLAMA_GRETYPE_END; pos++) {
             vec_rules[i].push_back(*pos);
         }
-        vec_rules[i].push_back({LLAMA_GRETYPE_END, 0});
+	llama_grammar_element ge = {.type=LLAMA_GRETYPE_END, .value=0};
+        vec_rules[i].push_back(ge);
     }
 
     // loop over alternates of start rule to build initial stacks
@@ -7368,7 +7369,15 @@ struct llama_beam {
             tokens.resize(tokens.size() - n);
         }
     }
-    llama_beam_view view() const { return {tokens.data(), tokens.size(), p, eob}; }
+    llama_beam_view view() const {
+      llama_beam_view bv = {
+	.tokens =tokens.data(),
+	.n_tokens= tokens.size(),
+	.p=p,
+	.eob=eob
+      };
+      return bv;
+    }
 };
 
 // A struct for calculating logit-related info.
@@ -7389,7 +7398,12 @@ struct llama_logit_info {
       { }
     llama_token_data get_token_data(const llama_token token_id) const {
         constexpr auto p = std::numeric_limits<float>::quiet_NaN();  // never used
-        return {token_id, logits[token_id], p};
+	llama_token_data dd {
+	  .id = token_id,
+	  .logit = logits[token_id],
+	  .p = p
+	};
+        return dd;
     }
     // Return top k token_data by logit.
     std::vector<llama_token_data> top_k(size_t k) {
@@ -7529,7 +7543,13 @@ struct llama_beam_search_data {
             beam_views[i] = beams[i].view();
         }
         common_prefix_length = find_common_prefix_length();
-        return {beam_views.data(), beams.size(), common_prefix_length, last_call};
+        llama_beams_state a = {
+	  .beam_views=beam_views.data(),
+	  .n_beams = beams.size(),
+	  .common_prefix_length=common_prefix_length,
+	  .last_call=last_call
+	};
+	return a;
     }
 
     // Loop:
@@ -8356,14 +8376,14 @@ static int llama_apply_lora_from_file_internal(
 //
 struct llama_model_params llama_model_default_params() {
     struct llama_model_params result = {
-        /*.n_gpu_layers                =*/ 0,
-        /*.main_gpu                    =*/ 0,
-        /*.tensor_split                =*/ nullptr,
-        /*.progress_callback           =*/ nullptr,
-        /*.progress_callback_user_data =*/ nullptr,
-        /*.vocab_only                  =*/ false,
-        /*.use_mmap                    =*/ true,
-        /*.use_mlock                   =*/ false,
+        .n_gpu_layers                = 0,
+        .main_gpu                    = 0,
+        .tensor_split                = nullptr,
+        .progress_callback           = nullptr,
+        .progress_callback_user_data = nullptr,
+        .vocab_only                  = false,
+        .use_mmap                    = true,
+        .use_mlock                   = false,
     };
 
 #ifdef GGML_USE_METAL
@@ -8375,23 +8395,23 @@ struct llama_model_params llama_model_default_params() {
 
 struct llama_context_params llama_context_default_params() {
     struct llama_context_params result = {
-        /*.seed                        =*/ LLAMA_DEFAULT_SEED,
-        /*.n_ctx                       =*/ 512,
-        /*.n_batch                     =*/ 512,
-        /*.n_threads                   =*/ GGML_DEFAULT_N_THREADS, // TODO: better default
-        /*.n_threads_batch             =*/ GGML_DEFAULT_N_THREADS,
-        /*.rope_scaling_type           =*/ LLAMA_ROPE_SCALING_UNSPECIFIED,
-        /*.rope_freq_base              =*/ 0.0f,
-        /*.rope_freq_scale             =*/ 0.0f,
-        /*.yarn_ext_factor             =*/ -1.0f,
-        /*.yarn_attn_factor            =*/ 1.0f,
-        /*.yarn_beta_fast              =*/ 32.0f,
-        /*.yarn_beta_slow              =*/ 1.0f,
-        /*.yarn_orig_ctx               =*/ 0,
-        /*.mul_mat_q                   =*/ true,
-        /*.f16_kv                      =*/ true,
-        /*.logits_all                  =*/ false,
-        /*.embedding                   =*/ false,
+        .seed                        = LLAMA_DEFAULT_SEED,
+        .n_ctx                       = 512,
+        .n_batch                     = 512,
+        .n_threads                   = GGML_DEFAULT_N_THREADS, // TODO: better default
+        .n_threads_batch             = GGML_DEFAULT_N_THREADS,
+        .rope_scaling_type           = LLAMA_ROPE_SCALING_UNSPECIFIED,
+        .rope_freq_base              = 0.0f,
+        .rope_freq_scale             = 0.0f,
+        .yarn_ext_factor             = -1.0f,
+        .yarn_attn_factor            = 1.0f,
+        .yarn_beta_fast              = 32.0f,
+        .yarn_beta_slow              = 1.0f,
+        .yarn_orig_ctx               = 0,
+        .mul_mat_q                   = true,
+        .f16_kv                      = true,
+        .logits_all                  = false,
+        .embedding                   = false,
     };
 
     return result;
@@ -8399,12 +8419,12 @@ struct llama_context_params llama_context_default_params() {
 
 struct llama_model_quantize_params llama_model_quantize_default_params() {
     struct llama_model_quantize_params result = {
-        /*.nthread                     =*/ 0,
-        /*.ftype                       =*/ LLAMA_FTYPE_MOSTLY_Q5_1,
-        /*.allow_requantize            =*/ false,
-        /*.quantize_output_tensor      =*/ true,
-        /*.only_copy                   =*/ false,
-        /*.pure                        =*/ false,
+        .nthread                     = 0,
+        .ftype                       = LLAMA_FTYPE_MOSTLY_Q5_1,
+        .allow_requantize            = false,
+        .quantize_output_tensor      = true,
+        .only_copy                   = false,
+        .pure                        = false,
     };
 
     return result;
@@ -9301,7 +9321,18 @@ int llama_eval_embd(
                              int   n_past) {
     llama_kv_cache_seq_rm(ctx->kv_self, -1, n_past, -1);
 
-    llama_batch batch = { n_tokens, nullptr, embd, nullptr, nullptr, nullptr, nullptr, n_past, 1, 0, };
+    llama_batch batch = {
+      .n_tokens=n_tokens,
+      .token=nullptr,
+      .embd=embd,
+      .pos=nullptr,
+      .n_seq_id=nullptr,
+      .seq_id=nullptr,
+      .logits=nullptr,
+      .all_pos_0=n_past,
+      .all_pos_1=1,
+      .all_seq_id=0
+    };
 
     const int ret = llama_decode_internal(*ctx, batch);
     if (ret < 0) {
@@ -9321,22 +9352,34 @@ struct llama_batch llama_batch_get_one(
                  int32_t   n_tokens,
                llama_pos   pos_0,
             llama_seq_id   seq_id) {
-    return {
-        /*n_tokens       =*/ n_tokens,
-        /*tokens         =*/ tokens,
-        /*embd           =*/ nullptr,
-        /*pos            =*/ nullptr,
-        /*n_seq_id       =*/ nullptr,
-        /*seq_id         =*/ nullptr,
-        /*logits         =*/ nullptr,
-        /*all_pos_0      =*/ pos_0,
-        /*all_pos_1      =*/ 1,
-        /*all_seq_id     =*/ seq_id,
+    llama_batch b ={
+        .n_tokens       = n_tokens,
+        .token          = tokens,
+        .embd           = nullptr,
+        .pos            = nullptr,
+        .n_seq_id       = nullptr,
+        .seq_id         = nullptr,
+        .logits         = nullptr,
+        .all_pos_0      = pos_0,
+        .all_pos_1      = 1,
+        .all_seq_id     = seq_id,
     };
+    return b;
 }
 
 struct llama_batch llama_batch_init(int32_t n_tokens, int32_t embd, int32_t n_seq_max) {
-    llama_batch batch = { 0, nullptr, nullptr, nullptr, nullptr, nullptr, nullptr, 0, 0, 0, };
+    llama_batch batch = {
+      .n_tokens = 0,
+      .embd=nullptr, 
+      .pos=nullptr,
+      .n_seq_id=nullptr,
+      .seq_id=nullptr,
+      .logits=nullptr,
+      .all_pos_0=0,
+      .all_pos_1=0,
+      .all_seq_id=0
+
+    };
 
     if (embd) {
         batch.embd = (float *) malloc(sizeof(float) * n_tokens * embd);
@@ -9533,16 +9576,15 @@ int llama_token_to_piece(const struct llama_model * model, llama_token token, ch
 
 struct llama_timings llama_get_timings(struct llama_context * ctx) {
     struct llama_timings result = {
-        /*.t_start_ms  =*/ 1e-3 * ctx->t_start_us,
-        /*.t_end_ms    =*/ 1.00 * ggml_time_ms(),
-        /*.t_load_ms   =*/ 1e-3 * ctx->t_load_us,
-        /*.t_sample_ms =*/ 1e-3 * ctx->t_sample_us,
-        /*.t_p_eval_ms =*/ 1e-3 * ctx->t_p_eval_us,
-        /*.t_eval_ms   =*/ 1e-3 * ctx->t_eval_us,
-
-        /*.n_sample =*/ std::max(1, ctx->n_sample),
-        /*.n_p_eval =*/ std::max(1, ctx->n_p_eval),
-        /*.n_eval   =*/ std::max(1, ctx->n_eval),
+      .t_start_ms  = 1e-3 * ctx->t_start_us,
+      .t_end_ms    = 1.00 * ggml_time_ms(),
+      .t_load_ms   = 1e-3 * ctx->t_load_us,
+      .t_sample_ms = 1e-3 * ctx->t_sample_us,
+      .t_p_eval_ms = 1e-3 * ctx->t_p_eval_us,
+      .t_eval_ms   = 1e-3 * ctx->t_eval_us,     
+      .n_sample = std::max(1, ctx->n_sample),
+      .n_p_eval = std::max(1, ctx->n_p_eval),
+      .n_eval   = std::max(1, ctx->n_eval),
     };
 
     return result;
diff --git a/llama.h b/llama.h
index 70e8fda4b..d2da1abea 100644
--- a/llama.h
+++ b/llama.h
@@ -114,13 +114,19 @@ extern "C" {
         LLAMA_ROPE_SCALING_MAX_VALUE   = LLAMA_ROPE_SCALING_YARN,
     };
 
-    typedef struct llama_token_data {
+    typedef struct llama_token_data : refl::attr::usage::type{
         llama_token id; // token id
         float logit;    // log-odds of the token
         float p;        // probability of the token
     } llama_token_data;
 
-    typedef struct llama_token_data_array {
+    typedef struct llama_token_data_array : refl::attr::usage::type{
+      llama_token_data_array(llama_token_data * data,
+			     size_t size,
+			     bool sorted):
+	data(data),
+	size(size),
+	sorted(sorted){}
         llama_token_data * data;
         size_t size;
         bool sorted;
@@ -138,7 +144,7 @@ extern "C" {
     // - seq_id : the sequence to which the respective token belongs
     // - logits : if zero, the logits for the respective token will not be output
     //
-    typedef struct llama_batch {
+    typedef struct llama_batch : refl::attr::usage::type{
         int32_t n_tokens;
 
         llama_token  *  token;
@@ -158,7 +164,7 @@ extern "C" {
         llama_seq_id all_seq_id; // used if seq_id == NULL
     } llama_batch;
 
-    struct llama_model_params {
+    struct llama_model_params : refl::attr::usage::type{
         int32_t n_gpu_layers; // number of layers to store in VRAM
         int32_t main_gpu;     // the GPU that is used for scratch and small tensors
         const float * tensor_split; // how to split layers across multiple GPUs (size: LLAMA_MAX_DEVICES)
@@ -174,7 +180,7 @@ extern "C" {
         bool use_mlock;  // force system to keep model in RAM
     };
 
-    struct llama_context_params {
+    struct llama_context_params : refl::attr::usage::type{
         uint32_t seed;              // RNG seed, -1 for random
         uint32_t n_ctx;             // text context, 0 = from model
         uint32_t n_batch;           // prompt processing maximum batch size
@@ -199,7 +205,7 @@ extern "C" {
     };
 
     // model quantization parameters
-    typedef struct llama_model_quantize_params {
+    typedef struct llama_model_quantize_params : refl::attr::usage::type{
         int nthread;                 // number of threads to use for quantizing, if <=0 will use std::thread::hardware_concurrency()
         enum llama_ftype ftype;      // quantize to this llama_ftype
         bool allow_requantize;       // allow quantizing non-f32/f16 tensors
@@ -237,13 +243,13 @@ extern "C" {
         LLAMA_GRETYPE_CHAR_ALT       = 6,
     };
 
-    typedef struct llama_grammar_element {
+    typedef struct llama_grammar_element : refl::attr::usage::type{
         enum llama_gretype type;
         uint32_t           value; // Unicode code point or rule ID
     } llama_grammar_element;
 
     // performance timing information
-    struct llama_timings {
+    struct llama_timings : refl::attr::usage::type{
         double t_start_ms;
         double t_end_ms;
         double t_load_ms;
@@ -720,7 +726,7 @@ extern "C" {
     // Beam search
     //
 
-    struct llama_beam_view {
+    struct llama_beam_view : refl::attr::usage::type{
         const llama_token * tokens;
 
         size_t n_tokens;
@@ -732,7 +738,7 @@ extern "C" {
     // Whenever 0 < common_prefix_length, this number of tokens should be copied from any of the beams
     // (e.g. beams[0]) as they will be removed (shifted) from all beams in all subsequent callbacks.
     // These pointers are valid only during the synchronous callback, so should not be saved.
-    struct llama_beams_state {
+    struct llama_beams_state : refl::attr::usage::type{
         struct llama_beam_view * beam_views;
 
         size_t n_beams;               // Number of elements in beam_views[].
diff --git a/tests/test-c.c b/tests/test-c.c
deleted file mode 100644
index a05071080..000000000
--- a/tests/test-c.c
+++ /dev/null
@@ -1,3 +0,0 @@
-#include "llama.h"
-
-int main(void) {}