Call add_tensor before write_* functions

2023-10-29 20:00:54 +01:00 · 2023-10-29 20:00:54 +01:00 · 443f7d586e
commit 443f7d586e
parent 550b925af2
2 changed files with 22 additions and 6 deletions
--- a/convert-generic.py
+++ b/convert-generic.py
@ -54,14 +54,19 @@ print("gguf: get gpt2 tokenizer vocab")
 model_instance.set_vocab()

 # write model
-print("gguf: write header")
-model_instance.gguf_writer.write_header_to_file()
-print("gguf: write metadata")
-model_instance.gguf_writer.write_kv_data_to_file()
 if not args.vocab_only:
-    print("gguf: write tensors")
    model_instance.write_tensors()
+    print("gguf: write header")
+    model_instance.gguf_writer.write_header_to_file()
+    print("gguf: write metadata")
+    model_instance.gguf_writer.write_kv_data_to_file()
+    print("gguf: write tensors")
    model_instance.gguf_writer.write_tensors_to_file()
+else:
+    print("gguf: write header")
+    model_instance.gguf_writer.write_header_to_file()
+    print("gguf: write metadata")
+    model_instance.gguf_writer.write_kv_data_to_file()

 model_instance.gguf_writer.close()

--- a/model.py
+++ b/model.py
@ -190,7 +190,18 @@ class StableLMModel(Model):


 class GPTNeoXModel(Model):
-    pass
+    def set_gguf_parameters(self):
+        block_count = self.hparams["num_hidden_layers"]
+
+        self.gguf_writer.add_name(self.dir_model.name)
+        self.gguf_writer.add_context_length(self.hparams["max_position_embeddings"])
+        self.gguf_writer.add_embedding_length(self.hparams["hidden_size"])
+        self.gguf_writer.add_block_count(block_count)
+        self.gguf_writer.add_feed_forward_length(self.hparams["intermediate_size"])
+        self.gguf_writer.add_rope_dimension_count(int(self.hparams["rotary_pct"]*(self.hparams["hidden_size"]//self.hparams["num_attention_heads"])))
+        self.gguf_writer.add_head_count(self.hparams["num_attention_heads"])
+        self.gguf_writer.add_parallel_residual(self.hparams["use_parallel_residual"] if "use_parallel_residual" in self.hparams else True)
+        self.gguf_writer.add_layer_norm_eps(self.hparams["layer_norm_eps"])

 class BloomModel(Model):
    def set_gguf_parameters(self):