Apply @jploski 's fix for missing tokens

2023-10-03 08:34:27 +02:00 · 2023-10-03 08:34:27 +02:00 · 3e518e255b
commit 3e518e255b
parent 5aee498d97
2 changed files with 2 additions and 2 deletions
--- a/convert-gptneox-hf-to-gguf.py
+++ b/convert-gptneox-hf-to-gguf.py
@ -131,7 +131,7 @@ tokenizer = AutoTokenizer.from_pretrained(dir_model)
 reverse_vocab = {id: encoded_tok for encoded_tok, id in tokenizer.vocab.items()}

 for i in range(vocab_size):
-    tokens.append(reverse_vocab[i])
+    tokens.append(reverse_vocab[i] if i in reverse_vocab else f"[PAD{i}]")
    scores.append(0.0) # dummy
    toktypes.append(gguf.TokenType.NORMAL)

--- a/convert-starcoder-hf-to-gguf.py
+++ b/convert-starcoder-hf-to-gguf.py
@ -121,7 +121,7 @@ tokenizer = AutoTokenizer.from_pretrained(dir_model)
 reverse_vocab = {id: encoded_tok for encoded_tok, id in tokenizer.vocab.items()}

 for i in range(vocab_size):
-    tokens.append(reverse_vocab[i])
+    tokens.append(reverse_vocab[i] if i in reverse_vocab else f"[PAD{i}]")
    scores.append(0.0) # dummy
    toktypes.append(gguf.TokenType.NORMAL)