llama : alternative merge ignore logic

2024-05-11 11:10:23 +03:00 · 2024-05-11 11:10:23 +03:00 · b8d3cd5337
commit b8d3cd5337
parent 0c9a0aef4c
1 changed files with 5 additions and 14 deletions
--- a/llama.cpp
+++ b/llama.cpp
@ -12299,26 +12299,17 @@ struct llm_tokenizer_bpe {
        symbols_final.clear();

        for (auto & word : word_collection) {
-            if (ignore_merges && vocab.token_to_id.find(word) != vocab.token_to_id.end()) {
-                llm_symbol sym;
-                sym.text = word.c_str();
-                sym.n = word.size();
-                sym.prev = final_prev_index;
-                sym.next = -1;
-                if (final_prev_index != -1) {
-                    symbols_final[final_prev_index].next = symbols_final.size();
-                }
-                symbols_final.emplace_back(sym);
-                final_prev_index = symbols_final.size() - 1;
-                continue;
-            }
-
            work_queue = llm_bigram_bpe::queue();
            symbols.clear();

            int index = 0;
            size_t offset = 0;

+            if (ignore_merges && vocab.token_to_id.find(word) != vocab.token_to_id.end()) {
+                symbols.emplace_back(llm_symbol{-1, -1, word.c_str(), word.size()});
+                offset = word.size();
+            }
+
            while (offset < word.size()) {
                llm_symbol sym;
                size_t char_len = std::min(word.size() - offset, (size_t) ::utf8_len(word[offset]));