names : for brevity "SHARED_EXP" -> "SHEXP"

2024-04-16 09:01:40 +03:00 · 2024-04-16 09:01:40 +03:00 · f88e6844a4
commit f88e6844a4
parent 7355ca84b5
3 changed files with 136 additions and 136 deletions
--- a/gguf-py/gguf/constants.py
+++ b/gguf-py/gguf/constants.py
@ -131,45 +131,45 @@ class MODEL_ARCH(IntEnum):


 class MODEL_TENSOR(IntEnum):
-    TOKEN_EMBD              = auto()
-    TOKEN_EMBD_NORM         = auto()
-    TOKEN_TYPES             = auto()
-    POS_EMBD                = auto()
-    OUTPUT                  = auto()
-    OUTPUT_NORM             = auto()
-    ROPE_FREQS              = auto()
-    ATTN_Q                  = auto()
-    ATTN_K                  = auto()
-    ATTN_V                  = auto()
-    ATTN_QKV                = auto()
-    ATTN_OUT                = auto()
-    ATTN_NORM               = auto()
-    ATTN_NORM_2             = auto()
-    ATTN_OUT_NORM           = auto()
-    ATTN_ROT_EMBD           = auto()
-    FFN_GATE_INP            = auto()
-    FFN_GATE_INP_SHARED_EXP = auto()
-    FFN_NORM                = auto()
-    FFN_GATE                = auto()
-    FFN_DOWN                = auto()
-    FFN_UP                  = auto()
-    FFN_ACT                 = auto()
-    FFN_GATE_EXP            = auto()
-    FFN_DOWN_EXP            = auto()
-    FFN_UP_EXP              = auto()
-    FFN_GATE_SHARED_EXP     = auto()
-    FFN_DOWN_SHARED_EXP     = auto()
-    FFN_UP_SHARED_EXP       = auto()
-    ATTN_Q_NORM             = auto()
-    ATTN_K_NORM             = auto()
-    LAYER_OUT_NORM          = auto()
-    SSM_IN                  = auto()
-    SSM_CONV1D              = auto()
-    SSM_X                   = auto()
-    SSM_DT                  = auto()
-    SSM_A                   = auto()
-    SSM_D                   = auto()
-    SSM_OUT                 = auto()
+    TOKEN_EMBD         = auto()
+    TOKEN_EMBD_NORM    = auto()
+    TOKEN_TYPES        = auto()
+    POS_EMBD           = auto()
+    OUTPUT             = auto()
+    OUTPUT_NORM        = auto()
+    ROPE_FREQS         = auto()
+    ATTN_Q             = auto()
+    ATTN_K             = auto()
+    ATTN_V             = auto()
+    ATTN_QKV           = auto()
+    ATTN_OUT           = auto()
+    ATTN_NORM          = auto()
+    ATTN_NORM_2        = auto()
+    ATTN_OUT_NORM      = auto()
+    ATTN_ROT_EMBD      = auto()
+    FFN_GATE_INP       = auto()
+    FFN_GATE_INP_SHEXP = auto()
+    FFN_NORM           = auto()
+    FFN_GATE           = auto()
+    FFN_DOWN           = auto()
+    FFN_UP             = auto()
+    FFN_ACT            = auto()
+    FFN_GATE_EXP       = auto()
+    FFN_DOWN_EXP       = auto()
+    FFN_UP_EXP         = auto()
+    FFN_GATE_SHEXP     = auto()
+    FFN_DOWN_SHEXP     = auto()
+    FFN_UP_SHEXP       = auto()
+    ATTN_Q_NORM        = auto()
+    ATTN_K_NORM        = auto()
+    LAYER_OUT_NORM     = auto()
+    SSM_IN             = auto()
+    SSM_CONV1D         = auto()
+    SSM_X              = auto()
+    SSM_DT             = auto()
+    SSM_A              = auto()
+    SSM_D              = auto()
+    SSM_OUT            = auto()


 MODEL_ARCH_NAMES: dict[MODEL_ARCH, str] = {
@ -206,45 +206,45 @@ MODEL_ARCH_NAMES: dict[MODEL_ARCH, str] = {
 }

 TENSOR_NAMES: dict[MODEL_TENSOR, str] = {
-    MODEL_TENSOR.TOKEN_EMBD:              "token_embd",
-    MODEL_TENSOR.TOKEN_EMBD_NORM:         "token_embd_norm",
-    MODEL_TENSOR.TOKEN_TYPES:             "token_types",
-    MODEL_TENSOR.POS_EMBD:                "position_embd",
-    MODEL_TENSOR.OUTPUT_NORM:             "output_norm",
-    MODEL_TENSOR.OUTPUT:                  "output",
-    MODEL_TENSOR.ROPE_FREQS:              "rope_freqs",
-    MODEL_TENSOR.ATTN_NORM:               "blk.{bid}.attn_norm",
-    MODEL_TENSOR.ATTN_NORM_2:             "blk.{bid}.attn_norm_2",
-    MODEL_TENSOR.ATTN_QKV:                "blk.{bid}.attn_qkv",
-    MODEL_TENSOR.ATTN_Q:                  "blk.{bid}.attn_q",
-    MODEL_TENSOR.ATTN_K:                  "blk.{bid}.attn_k",
-    MODEL_TENSOR.ATTN_V:                  "blk.{bid}.attn_v",
-    MODEL_TENSOR.ATTN_OUT:                "blk.{bid}.attn_output",
-    MODEL_TENSOR.ATTN_ROT_EMBD:           "blk.{bid}.attn_rot_embd",
-    MODEL_TENSOR.ATTN_Q_NORM:             "blk.{bid}.attn_q_norm",
-    MODEL_TENSOR.ATTN_K_NORM:             "blk.{bid}.attn_k_norm",
-    MODEL_TENSOR.ATTN_OUT_NORM:           "blk.{bid}.attn_output_norm",
-    MODEL_TENSOR.FFN_GATE_INP:            "blk.{bid}.ffn_gate_inp",
-    MODEL_TENSOR.FFN_GATE_INP_SHARED_EXP: "blk.{bid}.ffn_gate_inp_shared_exp",
-    MODEL_TENSOR.FFN_NORM:                "blk.{bid}.ffn_norm",
-    MODEL_TENSOR.FFN_GATE:                "blk.{bid}.ffn_gate",
-    MODEL_TENSOR.FFN_DOWN:                "blk.{bid}.ffn_down",
-    MODEL_TENSOR.FFN_UP:                  "blk.{bid}.ffn_up",
-    MODEL_TENSOR.FFN_GATE_SHARED_EXP:     "blk.{bid}.ffn_gate_shared_exp",
-    MODEL_TENSOR.FFN_DOWN_SHARED_EXP:     "blk.{bid}.ffn_down_shared_exp",
-    MODEL_TENSOR.FFN_UP_SHARED_EXP:       "blk.{bid}.ffn_up_shared_exp",
-    MODEL_TENSOR.FFN_ACT:                 "blk.{bid}.ffn",
-    MODEL_TENSOR.FFN_GATE_EXP:            "blk.{bid}.ffn_gate_exps",
-    MODEL_TENSOR.FFN_DOWN_EXP:            "blk.{bid}.ffn_down_exps",
-    MODEL_TENSOR.FFN_UP_EXP:              "blk.{bid}.ffn_up_exps",
-    MODEL_TENSOR.LAYER_OUT_NORM:          "blk.{bid}.layer_output_norm",
-    MODEL_TENSOR.SSM_IN:                  "blk.{bid}.ssm_in",
-    MODEL_TENSOR.SSM_CONV1D:              "blk.{bid}.ssm_conv1d",
-    MODEL_TENSOR.SSM_X:                   "blk.{bid}.ssm_x",
-    MODEL_TENSOR.SSM_DT:                  "blk.{bid}.ssm_dt",
-    MODEL_TENSOR.SSM_A:                   "blk.{bid}.ssm_a",
-    MODEL_TENSOR.SSM_D:                   "blk.{bid}.ssm_d",
-    MODEL_TENSOR.SSM_OUT:                 "blk.{bid}.ssm_out",
+    MODEL_TENSOR.TOKEN_EMBD:         "token_embd",
+    MODEL_TENSOR.TOKEN_EMBD_NORM:    "token_embd_norm",
+    MODEL_TENSOR.TOKEN_TYPES:        "token_types",
+    MODEL_TENSOR.POS_EMBD:           "position_embd",
+    MODEL_TENSOR.OUTPUT_NORM:        "output_norm",
+    MODEL_TENSOR.OUTPUT:             "output",
+    MODEL_TENSOR.ROPE_FREQS:         "rope_freqs",
+    MODEL_TENSOR.ATTN_NORM:          "blk.{bid}.attn_norm",
+    MODEL_TENSOR.ATTN_NORM_2:        "blk.{bid}.attn_norm_2",
+    MODEL_TENSOR.ATTN_QKV:           "blk.{bid}.attn_qkv",
+    MODEL_TENSOR.ATTN_Q:             "blk.{bid}.attn_q",
+    MODEL_TENSOR.ATTN_K:             "blk.{bid}.attn_k",
+    MODEL_TENSOR.ATTN_V:             "blk.{bid}.attn_v",
+    MODEL_TENSOR.ATTN_OUT:           "blk.{bid}.attn_output",
+    MODEL_TENSOR.ATTN_ROT_EMBD:      "blk.{bid}.attn_rot_embd",
+    MODEL_TENSOR.ATTN_Q_NORM:        "blk.{bid}.attn_q_norm",
+    MODEL_TENSOR.ATTN_K_NORM:        "blk.{bid}.attn_k_norm",
+    MODEL_TENSOR.ATTN_OUT_NORM:      "blk.{bid}.attn_output_norm",
+    MODEL_TENSOR.FFN_GATE_INP:       "blk.{bid}.ffn_gate_inp",
+    MODEL_TENSOR.FFN_GATE_INP_SHEXP: "blk.{bid}.ffn_gate_inp_shexp",
+    MODEL_TENSOR.FFN_NORM:           "blk.{bid}.ffn_norm",
+    MODEL_TENSOR.FFN_GATE:           "blk.{bid}.ffn_gate",
+    MODEL_TENSOR.FFN_DOWN:           "blk.{bid}.ffn_down",
+    MODEL_TENSOR.FFN_UP:             "blk.{bid}.ffn_up",
+    MODEL_TENSOR.FFN_GATE_SHEXP:     "blk.{bid}.ffn_gate_shexp",
+    MODEL_TENSOR.FFN_DOWN_SHEXP:     "blk.{bid}.ffn_down_shexp",
+    MODEL_TENSOR.FFN_UP_SHEXP:       "blk.{bid}.ffn_up_shexp",
+    MODEL_TENSOR.FFN_ACT:            "blk.{bid}.ffn",
+    MODEL_TENSOR.FFN_GATE_EXP:       "blk.{bid}.ffn_gate_exps",
+    MODEL_TENSOR.FFN_DOWN_EXP:       "blk.{bid}.ffn_down_exps",
+    MODEL_TENSOR.FFN_UP_EXP:         "blk.{bid}.ffn_up_exps",
+    MODEL_TENSOR.LAYER_OUT_NORM:     "blk.{bid}.layer_output_norm",
+    MODEL_TENSOR.SSM_IN:             "blk.{bid}.ssm_in",
+    MODEL_TENSOR.SSM_CONV1D:         "blk.{bid}.ssm_conv1d",
+    MODEL_TENSOR.SSM_X:              "blk.{bid}.ssm_x",
+    MODEL_TENSOR.SSM_DT:             "blk.{bid}.ssm_dt",
+    MODEL_TENSOR.SSM_A:              "blk.{bid}.ssm_a",
+    MODEL_TENSOR.SSM_D:              "blk.{bid}.ssm_d",
+    MODEL_TENSOR.SSM_OUT:            "blk.{bid}.ssm_out",
 }

 MODEL_TENSORS: dict[MODEL_ARCH, list[MODEL_TENSOR]] = {
@ -493,10 +493,10 @@ MODEL_TENSORS: dict[MODEL_ARCH, list[MODEL_TENSOR]] = {
        MODEL_TENSOR.FFN_GATE_EXP,
        MODEL_TENSOR.FFN_DOWN_EXP,
        MODEL_TENSOR.FFN_UP_EXP,
-        MODEL_TENSOR.FFN_GATE_INP_SHARED_EXP,
-        MODEL_TENSOR.FFN_GATE_SHARED_EXP,
-        MODEL_TENSOR.FFN_DOWN_SHARED_EXP,
-        MODEL_TENSOR.FFN_UP_SHARED_EXP,
+        MODEL_TENSOR.FFN_GATE_INP_SHEXP,
+        MODEL_TENSOR.FFN_GATE_SHEXP,
+        MODEL_TENSOR.FFN_DOWN_SHEXP,
+        MODEL_TENSOR.FFN_UP_SHEXP,
    ],
    MODEL_ARCH.PLAMO: [
        MODEL_TENSOR.TOKEN_EMBD,
--- a/gguf-py/gguf/tensor_mapping.py
+++ b/gguf-py/gguf/tensor_mapping.py
@ -213,7 +213,7 @@ class TensorNameMap:
            "transformer.blocks.{bid}.ffn.router.layer",  # dbrx
        ),

-        MODEL_TENSOR.FFN_GATE_INP_SHARED_EXP: (
+        MODEL_TENSOR.FFN_GATE_INP_SHEXP: (
            "model.layers.{bid}.mlp.shared_expert_gate", # qwen2moe
        ),

@ -247,7 +247,7 @@ class TensorNameMap:
            "model.layers.{bid}.mlp.experts.up_proj",        # qwen2moe (merged)
        ),

-        MODEL_TENSOR.FFN_UP_SHARED_EXP: (
+        MODEL_TENSOR.FFN_UP_SHEXP: (
            "model.layers.{bid}.mlp.shared_expert.up_proj",  # qwen2moe
        ),

@ -273,7 +273,7 @@ class TensorNameMap:
            "model.layers.{bid}.mlp.experts.gate_proj",     # qwen2moe (merged)
        ),

-        MODEL_TENSOR.FFN_GATE_SHARED_EXP: (
+        MODEL_TENSOR.FFN_GATE_SHEXP: (
            "model.layers.{bid}.mlp.shared_expert.gate_proj",  # qwen2moe
        ),

@ -306,7 +306,7 @@ class TensorNameMap:
            "model.layers.{bid}.mlp.experts.down_proj",      # qwen2moe (merged)
        ),

-        MODEL_TENSOR.FFN_DOWN_SHARED_EXP: (
+        MODEL_TENSOR.FFN_DOWN_SHEXP: (
            "model.layers.{bid}.mlp.shared_expert.down_proj",  # qwen2moe
        ),

--- a/llama.cpp
+++ b/llama.cpp
@ -431,7 +431,7 @@ enum llm_tensor {
    LLM_TENSOR_ATTN_OUT_NORM,
    LLM_TENSOR_ATTN_ROT_EMBD,
    LLM_TENSOR_FFN_GATE_INP,
-    LLM_TENSOR_FFN_GATE_INP_SHARED_EXP,
+    LLM_TENSOR_FFN_GATE_INP_SHEXP,
    LLM_TENSOR_FFN_NORM,
    LLM_TENSOR_FFN_GATE,
    LLM_TENSOR_FFN_DOWN,
@ -440,12 +440,12 @@ enum llm_tensor {
    LLM_TENSOR_FFN_DOWN_EXP,  // split experts for backward compatibility
    LLM_TENSOR_FFN_GATE_EXP,
    LLM_TENSOR_FFN_UP_EXP,
-    LLM_TENSOR_FFN_DOWN_SHARED_EXP,
-    LLM_TENSOR_FFN_GATE_SHARED_EXP,
-    LLM_TENSOR_FFN_UP_SHARED_EXP,
    LLM_TENSOR_FFN_DOWN_EXPS, // merged experts
    LLM_TENSOR_FFN_GATE_EXPS,
    LLM_TENSOR_FFN_UP_EXPS,
+    LLM_TENSOR_FFN_DOWN_SHEXP,
+    LLM_TENSOR_FFN_GATE_SHEXP,
+    LLM_TENSOR_FFN_UP_SHEXP,
    LLM_TENSOR_ATTN_Q_NORM,
    LLM_TENSOR_ATTN_K_NORM,
    LLM_TENSOR_LAYER_OUT_NORM,
@ -746,23 +746,23 @@ static const std::map<llm_arch, std::map<llm_tensor, std::string>> LLM_TENSOR_NA
    {
        LLM_ARCH_QWEN2MOE,
        {
-            { LLM_TENSOR_TOKEN_EMBD,              "token_embd" },
-            { LLM_TENSOR_OUTPUT_NORM,             "output_norm" },
-            { LLM_TENSOR_OUTPUT,                  "output" },
-            { LLM_TENSOR_ATTN_NORM,               "blk.%d.attn_norm" },
-            { LLM_TENSOR_ATTN_Q,                  "blk.%d.attn_q" },
-            { LLM_TENSOR_ATTN_K,                  "blk.%d.attn_k" },
-            { LLM_TENSOR_ATTN_V,                  "blk.%d.attn_v" },
-            { LLM_TENSOR_ATTN_OUT,                "blk.%d.attn_output" },
-            { LLM_TENSOR_FFN_NORM,                "blk.%d.ffn_norm" },
-            { LLM_TENSOR_FFN_GATE_INP,            "blk.%d.ffn_gate_inp" },
-            { LLM_TENSOR_FFN_GATE_EXPS,           "blk.%d.ffn_gate_exps" },
-            { LLM_TENSOR_FFN_DOWN_EXPS,           "blk.%d.ffn_down_exps" },
-            { LLM_TENSOR_FFN_UP_EXPS,             "blk.%d.ffn_up_exps" },
-            { LLM_TENSOR_FFN_GATE_INP_SHARED_EXP, "blk.%d.ffn_gate_inp_shared_exp" },
-            { LLM_TENSOR_FFN_GATE_SHARED_EXP,     "blk.%d.ffn_gate_shared_exp" },
-            { LLM_TENSOR_FFN_DOWN_SHARED_EXP,     "blk.%d.ffn_down_shared_exp" },
-            { LLM_TENSOR_FFN_UP_SHARED_EXP,       "blk.%d.ffn_up_shared_exp" },
+            { LLM_TENSOR_TOKEN_EMBD,         "token_embd" },
+            { LLM_TENSOR_OUTPUT_NORM,        "output_norm" },
+            { LLM_TENSOR_OUTPUT,             "output" },
+            { LLM_TENSOR_ATTN_NORM,          "blk.%d.attn_norm" },
+            { LLM_TENSOR_ATTN_Q,             "blk.%d.attn_q" },
+            { LLM_TENSOR_ATTN_K,             "blk.%d.attn_k" },
+            { LLM_TENSOR_ATTN_V,             "blk.%d.attn_v" },
+            { LLM_TENSOR_ATTN_OUT,           "blk.%d.attn_output" },
+            { LLM_TENSOR_FFN_NORM,           "blk.%d.ffn_norm" },
+            { LLM_TENSOR_FFN_GATE_INP,       "blk.%d.ffn_gate_inp" },
+            { LLM_TENSOR_FFN_GATE_EXPS,      "blk.%d.ffn_gate_exps" },
+            { LLM_TENSOR_FFN_DOWN_EXPS,      "blk.%d.ffn_down_exps" },
+            { LLM_TENSOR_FFN_UP_EXPS,        "blk.%d.ffn_up_exps" },
+            { LLM_TENSOR_FFN_GATE_INP_SHEXP, "blk.%d.ffn_gate_inp_shexp" },
+            { LLM_TENSOR_FFN_GATE_SHEXP,     "blk.%d.ffn_gate_shexp" },
+            { LLM_TENSOR_FFN_DOWN_SHEXP,     "blk.%d.ffn_down_shexp" },
+            { LLM_TENSOR_FFN_UP_SHEXP,       "blk.%d.ffn_up_shexp" },
        },
    },
    {
@ -1938,11 +1938,11 @@ struct llama_layer {
    struct ggml_tensor * ffn_down_exps;
    struct ggml_tensor * ffn_up_exps ;

-    // ff shared expert
-    struct ggml_tensor * ffn_gate_inp_shared_exp;
-    struct ggml_tensor * ffn_gate_shared_exp;
-    struct ggml_tensor * ffn_down_shared_exp;
-    struct ggml_tensor * ffn_up_shared_exp;
+    // ff shared expert (shexp)
+    struct ggml_tensor * ffn_gate_inp_shexp;
+    struct ggml_tensor * ffn_gate_shexp;
+    struct ggml_tensor * ffn_down_shexp;
+    struct ggml_tensor * ffn_up_shexp;

    // ff bias
    struct ggml_tensor * ffn_down_b; // b2
@ -5205,10 +5205,10 @@ static bool llm_load_tensors(
                        layer.ffn_up_exps   = ml.create_tensor(ctx_split, tn(LLM_TENSOR_FFN_UP_EXPS,   "weight", i), {  n_embd, n_ff_exp, n_expert});

                        // Shared expert branch
-                        layer.ffn_gate_inp_shared_exp = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_FFN_GATE_INP_SHARED_EXP, "weight", i), {n_embd});
-                        layer.ffn_gate_shared_exp = ml.create_tensor(ctx_split, tn(LLM_TENSOR_FFN_GATE_SHARED_EXP, "weight", i), {n_embd,   n_ff});
-                        layer.ffn_down_shared_exp = ml.create_tensor(ctx_split, tn(LLM_TENSOR_FFN_DOWN_SHARED_EXP, "weight", i), {  n_ff, n_embd});
-                        layer.ffn_up_shared_exp   = ml.create_tensor(ctx_split, tn(LLM_TENSOR_FFN_UP_SHARED_EXP,   "weight", i), {n_embd,   n_ff});
+                        layer.ffn_gate_inp_shexp = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_FFN_GATE_INP_SHEXP, "weight", i), {n_embd});
+                        layer.ffn_gate_shexp = ml.create_tensor(ctx_split, tn(LLM_TENSOR_FFN_GATE_SHEXP, "weight", i), {n_embd,   n_ff});
+                        layer.ffn_down_shexp = ml.create_tensor(ctx_split, tn(LLM_TENSOR_FFN_DOWN_SHEXP, "weight", i), {  n_ff, n_embd});
+                        layer.ffn_up_shexp   = ml.create_tensor(ctx_split, tn(LLM_TENSOR_FFN_UP_SHEXP,   "weight", i), {n_embd,   n_ff});
                    }
                } break;
            case LLM_ARCH_PHI2:
@ -8622,31 +8622,31 @@ struct llm_build_context {
                }
            }

-            ggml_tensor * gate_shared_exp = ggml_mul_mat(ctx0, model.layers[il].ffn_gate_inp_shared_exp, cur);
-            cb(gate_shared_exp, "ffn_moe_gate_inp_shared_exp", il);
+            // FFN shared expert
+            {
+                ggml_tensor * cur_gate_inp = ggml_mul_mat(ctx0, model.layers[il].ffn_gate_inp_shexp, cur);
+                cb(cur_gate_inp, "ffn_shexp_gate_inp", il);

-            // sigmoid
-            ggml_tensor * logits_shared_exp = ggml_silu(ctx0, gate_shared_exp);
-            cb(logits_shared_exp, "ffn_moe_logits_shared_exp", il);
+                // sigmoid
+                ggml_tensor * cur_gate = ggml_div(ctx0, ggml_silu(ctx0, cur_gate_inp), cur_gate_inp);
+                cb(cur_gate, "ffn_shexp_gate", il);

-            ggml_tensor * probs_shared_exp = ggml_div(ctx0, logits_shared_exp, gate_shared_exp);
-            cb(probs_shared_exp, "ffn_moe_probs_shared_exp", il);
+                ggml_tensor * cur_ffn = llm_build_ffn(ctx0, cur,
+                        model.layers[il].ffn_up_shexp,   NULL,
+                        model.layers[il].ffn_gate_shexp, NULL,
+                        model.layers[il].ffn_down_shexp, NULL,
+                        NULL,
+                        LLM_FFN_SILU, LLM_FFN_PAR, cb, il);
+                cb(cur_ffn, "ffn_shexp", il);

-            ggml_tensor * ffn_shared_exp = llm_build_ffn(ctx0, cur,
-                    model.layers[il].ffn_up_shared_exp,   NULL,
-                    model.layers[il].ffn_gate_shared_exp, NULL,
-                    model.layers[il].ffn_down_shared_exp, NULL,
-                    NULL,
-                    LLM_FFN_SILU, LLM_FFN_PAR, cb, il);
-            cb(ffn_shared_exp, "ffn_moe_shared_exp", il);
+                ggml_tensor * ffn_shexp_out = ggml_mul(ctx0, cur_ffn, cur_gate);
+                cb(ffn_shexp_out, "ffn_shexp_out", il);

-            ggml_tensor * ffn_shared_exp_out = ggml_mul(ctx0, ffn_shared_exp, probs_shared_exp);
-            cb(ffn_shared_exp_out, "ffn_moe_shared_exp_out", il);
+                moe_out = ggml_add(ctx0, moe_out, ffn_shexp_out);
+                cb(moe_out, "ffn_out", il);

-            moe_out = ggml_add(ctx0, moe_out, ffn_shared_exp_out);
-            cb(moe_out, "ffn_out", il);
-
-            cur = moe_out;
+                cur = moe_out;
+            }

            cur = ggml_add(ctx0, cur, ffn_inp);
            cb(cur, "l_out", il);