fix(convert): Remove unused tensor name mappings

Branch: GraniteMoE Co-Authored-By: git@compilade.net Signed-off-by: Gabe Goodhart <ghart@us.ibm.com>
2024-09-23 12:54:50 -06:00 · 2024-09-23 12:54:50 -06:00 · f2360996ca
commit f2360996ca
parent 5eb28c4710
1 changed files with 8 additions and 10 deletions
--- a/gguf-py/gguf/tensor_mapping.py
+++ b/gguf-py/gguf/tensor_mapping.py
@ -293,11 +293,10 @@ class TensorNameMap:
        ),

        MODEL_TENSOR.FFN_UP_EXP: (
-            "layers.{bid}.feed_forward.experts.w3",                # mixtral (merged)
-            "transformer.decoder_layer.{bid}.moe.linear_v",        # Grok (merged)
-            "transformer.blocks.{bid}.ffn.experts.mlp.v1",         # dbrx
-            "model.layers.{bid}.mlp.experts.up_proj",              # qwen2moe olmoe (merged)
-            "model.layers.{bid}.block_sparse_moe.input_linear.up", # granitemoe
+            "layers.{bid}.feed_forward.experts.w3",          # mixtral (merged)
+            "transformer.decoder_layer.{bid}.moe.linear_v",  # Grok (merged)
+            "transformer.blocks.{bid}.ffn.experts.mlp.v1",   # dbrx
+            "model.layers.{bid}.mlp.experts.up_proj",        # qwen2moe olmoe (merged)
        ),

        MODEL_TENSOR.FFN_UP_SHEXP: (
@ -326,11 +325,10 @@ class TensorNameMap:
        ),

        MODEL_TENSOR.FFN_GATE_EXP: (
-            "layers.{bid}.feed_forward.experts.w1",                  # mixtral (merged)
-            "transformer.decoder_layer.{bid}.moe.linear",            # Grok (merged)
-            "transformer.blocks.{bid}.ffn.experts.mlp.w1",           # dbrx
-            "model.layers.{bid}.mlp.experts.gate_proj",              # qwen2moe olmoe (merged)
-            "model.layers.{bid}.block_sparse_moe.input_linear.gate", # granitemoe
+            "layers.{bid}.feed_forward.experts.w1",         # mixtral (merged)
+            "transformer.decoder_layer.{bid}.moe.linear",   # Grok (merged)
+            "transformer.blocks.{bid}.ffn.experts.mlp.w1",  # dbrx
+            "model.layers.{bid}.mlp.experts.gate_proj",     # qwen2moe olmoe (merged)
        ),

        MODEL_TENSOR.FFN_GATE_SHEXP: (