convert : fix pre-tokenizer type writing

2024-04-26 20:55:14 +03:00 · 2024-04-26 20:55:14 +03:00 · 1b9b79dd14
commit 1b9b79dd14
parent 43e12ce8e5
4 changed files with 3 additions and 1 deletions
--- a/convert-hf-to-gguf.py
+++ b/convert-hf-to-gguf.py
@ -408,6 +408,8 @@ class Model(ABC):
        if res is None:
            raise NotImplementedError(f"BPE pre-tokenizer was not recognized - update get_vocab_base_pre()")

+        return res
+
    def _set_vocab_gpt2(self) -> None:
        tokens, toktypes, tokpre = self.get_vocab_base()
        self.gguf_writer.add_tokenizer_model("gpt2")
--- a/llama.cpp
+++ b/llama.cpp
@ -4290,7 +4290,7 @@ static void llm_load_vocab(
        }

        if (tokenizer_pre.empty()) {
-            LLAMA_LOG_WARN("%s: missing tokenizer pre, using default tokenizer pre: 'default'", __func__);
+            LLAMA_LOG_WARN("%s: missing tokenizer pre, using default tokenizer pre: 'default'\n", __func__);
            vocab.type_pre = LLAMA_VOCAB_PRE_TYPE_DEFAULT;
        } else if (tokenizer_pre == "default") {
            vocab.type_pre = LLAMA_VOCAB_PRE_TYPE_DEFAULT;
--- a/models/ggml-vocab-deepseek-coder.gguf
+++ b/models/ggml-vocab-deepseek-coder.gguf
--- a/models/ggml-vocab-deepseek-llm.gguf
+++ b/models/ggml-vocab-deepseek-llm.gguf