use vocab size from config.json

2023-08-29 17:12:33 -07:00 · 2023-08-29 17:12:33 -07:00 · ad45bb37f4
commit ad45bb37f4
parent 22c3522d78
1 changed files with 1 additions and 1 deletions
--- a/convert-falcon-hf-to-gguf.py
+++ b/convert-falcon-hf-to-gguf.py
@ -148,7 +148,7 @@ if Path(dir_model + "/tokenizer.json").is_file():
    print("gguf: get gpt2 tokenizer vocab")
-    vocab_size = len(tokenizer_json["model"]["vocab"])
+    vocab_size = hparams["vocab_size"]
    # ref: https://github.com/cmp-nct/ggllm.cpp/blob/master/falcon_convert.py
    tokenizer = AutoTokenizer.from_pretrained(dir_model)