custom quantization schemas

2024-04-23 13:33:05 +02:00 · 2024-04-23 13:33:05 +02:00 · 31e2f5668c
commit 31e2f5668c
parent 4e96a812b3
1 changed files with 115 additions and 0 deletions
--- a/quant.cfg
+++ b/quant.cfg
@ -0,0 +1,115 @@
 ftype=15
 blk.12.ffn_down.weight=11
 blk.12.ffn_up.weight=11
 blk.13.ffn_down.weight=11
 blk.13.ffn_up.weight=11
 blk.14.ffn_down.weight=11
 blk.14.ffn_up.weight=11
 blk.15.ffn_down.weight=11
 blk.15.ffn_up.weight=11
 blk.16.ffn_up.weight=10
 blk.17.ffn_up.weight=10
 blk.18.ffn_up.weight=10
 blk.19.ffn_up.weight=10
 blk.20.ffn_up.weight=10
 blk.21.ffn_up.weight=10
 blk.22.ffn_up.weight=10
 blk.23.ffn_up.weight=10
 blk.24.ffn_up.weight=10
 blk.25.ffn_up.weight=10
 blk.16.ffn_down.weight=10
 blk.17.ffn_down.weight=10
 blk.18.ffn_down.weight=10
 blk.19.ffn_down.weight=10
 blk.20.ffn_down.weight=10
 blk.21.ffn_down.weight=10
 blk.22.ffn_down.weight=10
 blk.23.ffn_down.weight=10
 blk.24.ffn_down.weight=10
 blk.25.ffn_down.weight=10
 blk.26.ffn_down.weight=10
 blk.26.ffn_up.weight=10
 blk.27.ffn_down.weight=11
 blk.27.ffn_up.weight=11
 blk.28.ffn_down.weight=11
 blk.28.ffn_up.weight=11
 blk.29.ffn_down.weight=11
 blk.29.ffn_up.weight=11
 token_embd.weight=21
 output.weight=21
 # LLAMA_FTYPE_ALL_F32              = 0,
 # LLAMA_FTYPE_MOSTLY_F16           = 1,  // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_Q4_0          = 2,  // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_Q4_1          = 3,  // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_Q4_1_SOME_F16 = 4,  // tok_embeddings.weight and output.weight are F16
 # // LLAMA_FTYPE_MOSTLY_Q4_2       = 5,  // support has been removed
 # // LLAMA_FTYPE_MOSTLY_Q4_3       = 6,  // support has been removed
 # LLAMA_FTYPE_MOSTLY_Q8_0          = 7,  // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_Q5_0          = 8,  // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_Q5_1          = 9,  // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_Q2_K          = 10, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_Q3_K_S        = 11, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_Q3_K_M        = 12, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_Q3_K_L        = 13, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_Q4_K_S        = 14, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_Q4_K_M        = 15, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_Q5_K_S        = 16, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_Q5_K_M        = 17, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_Q6_K          = 18, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_IQ2_XXS       = 19, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_IQ2_XS        = 20, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_Q2_K_S        = 21, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_IQ3_XS        = 22, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_IQ3_XXS       = 23, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_IQ1_S         = 24, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_IQ4_NL        = 25, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_IQ3_S         = 26, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_IQ3_M         = 27, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_IQ2_S         = 28, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_IQ2_M         = 29, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_IQ4_XS        = 30, // except 1d tensors
 # LLAMA_FTYPE_MOSTLY_IQ1_M         = 31, // except 1d tensors
 # GGML_TYPE_F32     = 0,
 # GGML_TYPE_F16     = 1,
 # GGML_TYPE_Q4_0    = 2,
 # GGML_TYPE_Q4_1    = 3,
 # // GGML_TYPE_Q4_2 = 4, support has been removed
 # // GGML_TYPE_Q4_3 = 5, support has been removed
 # GGML_TYPE_Q5_0    = 6,
 # GGML_TYPE_Q5_1    = 7,
 # GGML_TYPE_Q8_0    = 8,
 # GGML_TYPE_Q8_1    = 9,
 # GGML_TYPE_Q2_K    = 10,
 # GGML_TYPE_Q3_K    = 11,
 # GGML_TYPE_Q4_K    = 12,
 # GGML_TYPE_Q5_K    = 13,
 # GGML_TYPE_Q6_K    = 14,
 # GGML_TYPE_Q8_K    = 15,
 # GGML_TYPE_IQ2_XXS = 16,
 # GGML_TYPE_IQ2_XS  = 17,
 # GGML_TYPE_IQ3_XXS = 18,
 # GGML_TYPE_IQ1_S   = 19,
 # GGML_TYPE_IQ4_NL  = 20,
 # GGML_TYPE_IQ3_S   = 21,
 # GGML_TYPE_IQ2_S   = 22,
 # GGML_TYPE_IQ4_XS  = 23,
 # GGML_TYPE_I8      = 24,
 # GGML_TYPE_I16     = 25,
 # GGML_TYPE_I32     = 26,
 # GGML_TYPE_I64     = 27,
 # GGML_TYPE_F64     = 28,
 # GGML_TYPE_IQ1_M   = 29,