style : minor fixes, mostly indentations

2023-07-15 09:57:35 +03:00 · 2023-07-15 09:57:35 +03:00 · d0b6c942fc
commit d0b6c942fc
parent da730c53bf
4 changed files with 65 additions and 53 deletions
--- a/ggml-metal.m
+++ b/ggml-metal.m
@ -885,7 +885,8 @@ void ggml_metal_graph_compute(

                            const int n_past = ((int32_t *)(src1->data))[0];

-                            float freq_base, freq_scale;
+                            float freq_base;
+                            float freq_scale;
                            memcpy(&freq_base,  (int32_t *) src1->data + 4, sizeof(float));
                            memcpy(&freq_scale, (int32_t *) src1->data + 5, sizeof(float));

--- a/ggml.c
+++ b/ggml.c
@ -12084,11 +12084,13 @@ static void ggml_compute_forward_rope_f32(
        return;
    }

+    float freq_base;
+    float freq_scale;
+
    const int n_past = ((int32_t *) src1->data)[0];
    const int n_dims = ((int32_t *) src1->data)[1];
    const int mode   = ((int32_t *) src1->data)[2];
    const int n_ctx  = ((int32_t *) src1->data)[3];
-    float freq_base, freq_scale;
    memcpy(&freq_base,  (int32_t *) src1->data + 4, sizeof(float));
    memcpy(&freq_scale, (int32_t *) src1->data + 5, sizeof(float));

@ -12214,11 +12216,13 @@ static void ggml_compute_forward_rope_f16(
        return;
    }

+    float freq_base;
+    float freq_scale;
+
    const int n_past = ((int32_t *) src1->data)[0];
    const int n_dims = ((int32_t *) src1->data)[1];
    const int mode   = ((int32_t *) src1->data)[2];
    const int n_ctx  = ((int32_t *) src1->data)[3];
-    float freq_base, freq_scale;
    memcpy(&freq_base,  (int32_t *) src1->data + 4, sizeof(float));
    memcpy(&freq_scale, (int32_t *) src1->data + 5, sizeof(float));

--- a/llama.cpp
+++ b/llama.cpp
@ -190,8 +190,10 @@ struct llama_hparams {
    uint32_t n_head  = 32;
    uint32_t n_layer = 32;
    uint32_t n_rot   = 64;
+
    float rope_freq_base  = 10000.0f;
    float rope_freq_scale = 1.0f;
+
    enum llama_ftype ftype = LLAMA_FTYPE_MOSTLY_F16;

    bool operator!=(const llama_hparams & other) const {
@ -843,12 +845,12 @@ struct llama_context_params llama_context_default_params() {
    struct llama_context_params result = {
        /*.seed                        =*/ LLAMA_DEFAULT_SEED,
        /*.n_ctx                       =*/ 512,
-        /*.rope_freq_base              =*/ 10000.0f,
-        /*.rope_freq_scale             =*/ 1.0f,
        /*.n_batch                     =*/ 512,
        /*.gpu_layers                  =*/ 0,
        /*.main_gpu                    =*/ 0,
        /*.tensor_split                =*/ {0},
+        /*.rope_freq_base              =*/ 10000.0f,
+        /*.rope_freq_scale             =*/ 1.0f,
        /*.progress_callback           =*/ nullptr,
        /*.progress_callback_user_data =*/ nullptr,
        /*.low_vram                    =*/ false,
@ -968,12 +970,12 @@ static void llama_model_load_internal(
        llama_model & model,
        llama_vocab & vocab,
        int n_ctx,
-        float rope_freq_base,
-        float rope_freq_scale,
        int n_batch,
        int n_gpu_layers,
        int main_gpu,
        const float * tensor_split,
+        float rope_freq_base,
+        float rope_freq_scale,
        bool low_vram,
        ggml_type memory_type,
        bool use_mmap,
@ -1008,6 +1010,7 @@ static void llama_model_load_internal(
        }

        hparams.n_ctx = n_ctx;
+
        hparams.rope_freq_base  = rope_freq_base;
        hparams.rope_freq_scale = rope_freq_scale;
    }
@ -1278,12 +1281,12 @@ static bool llama_model_load(
        llama_model & model,
        llama_vocab & vocab,
        int n_ctx,
-        float rope_freq_base,
-        float rope_freq_scale,
        int n_batch,
        int n_gpu_layers,
        int main_gpu,
        float * tensor_split,
+        float rope_freq_base,
+        float rope_freq_scale,
        bool low_vram,
        ggml_type memory_type,
        bool use_mmap,
@ -1292,7 +1295,7 @@ static bool llama_model_load(
        llama_progress_callback progress_callback,
        void *progress_callback_user_data) {
    try {
-        llama_model_load_internal(fname, model, vocab, n_ctx, rope_freq_base, rope_freq_scale, n_batch, n_gpu_layers, main_gpu, tensor_split, low_vram, memory_type,
+        llama_model_load_internal(fname, model, vocab, n_ctx, n_batch, n_gpu_layers, main_gpu, tensor_split, rope_freq_base, rope_freq_scale, low_vram, memory_type,
                                  use_mmap, use_mlock, vocab_only, progress_callback, progress_callback_user_data);
        return true;
    } catch (const std::exception & err) {
@ -1342,9 +1345,10 @@ static bool llama_eval_internal(
    const int n_head       = hparams.n_head;
    const int n_vocab      = hparams.n_vocab;
    const int n_rot        = hparams.n_embd/hparams.n_head;
+    const int n_gpu_layers = model.n_gpu_layers;
+
    const float freq_base  = hparams.rope_freq_base;
    const float freq_scale = hparams.rope_freq_scale;
-    const int n_gpu_layers = model.n_gpu_layers;

    auto & mem_per_token = lctx.mem_per_token;
    auto & buf_compute   = lctx.buf_compute;
@ -2689,9 +2693,9 @@ struct llama_model * llama_load_model_from_file(

    ggml_type memory_type = params.f16_kv ? GGML_TYPE_F16 : GGML_TYPE_F32;

-    if (!llama_model_load(path_model, *model, model->vocab, params.n_ctx, params.rope_freq_base, params.rope_freq_scale,
-                params.n_batch, params.n_gpu_layers, params.main_gpu, params.tensor_split, params.low_vram, memory_type,
-                params.use_mmap, params.use_mlock, params.vocab_only, params.progress_callback,
+    if (!llama_model_load(path_model, *model, model->vocab, params.n_ctx, params.n_batch, params.n_gpu_layers,
+                params.main_gpu, params.tensor_split, params.rope_freq_base, params.rope_freq_scale,params.low_vram,
+                memory_type, params.use_mmap, params.use_mlock, params.vocab_only, params.progress_callback,
                params.progress_callback_user_data)) {
        delete model;
        fprintf(stderr, "%s: failed to load model\n", __func__);
--- a/llama.h
+++ b/llama.h
@ -85,12 +85,15 @@ extern "C" {
   struct llama_context_params {
        uint32_t seed;                         // RNG seed, -1 for random
        int32_t  n_ctx;                        // text context
-        float    rope_freq_base;               // RoPE base frequency
-        float    rope_freq_scale;              // RoPE frequency scaling factor
        int32_t  n_batch;                      // prompt processing batch size
        int32_t  n_gpu_layers;                 // number of layers to store in VRAM
        int32_t  main_gpu;                     // the GPU that is used for scratch and small tensors
        float tensor_split[LLAMA_MAX_DEVICES]; // how to split layers across multiple GPUs
+
+        // ref: https://github.com/ggerganov/llama.cpp/pull/2054
+        float    rope_freq_base;  // RoPE base frequency
+        float    rope_freq_scale; // RoPE frequency scaling factor
+
        // called with a progress value between 0 and 1, pass NULL to disable
        llama_progress_callback progress_callback;
        // context pointer passed to the progress callback