add llama_sampler_init_grammar_lazy instead of renaming the non-lazy

2025-01-30 14:02:37 +00:00 · 2025-01-30 14:02:37 +00:00 · 5a64af6c70
commit 5a64af6c70
parent 7d59bf44ed
3 changed files with 42 additions and 19 deletions
--- a/common/sampling.cpp
+++ b/common/sampling.cpp
@ -158,10 +158,11 @@ struct common_sampler * common_sampler_init(const struct llama_model * model, co
    }
    auto * result = new common_sampler {
        /* .params = */ params,
-        /* .grmr   = */ llama_sampler_grammar_init(vocab, params.grammar.c_str(), "root",
-                                                   params.grammar_lazy,
-                                                   trigger_words.data(), trigger_words.size(),
-                                                   params.grammar_trigger_tokens.data(), params.grammar_trigger_tokens.size()),
+        /* .grmr   = */ params.grammar_lazy
+            ? llama_sampler_init_grammar_lazy(vocab, params.grammar.c_str(), "root",
+                                              trigger_words.data(), trigger_words.size(),
+                                              params.grammar_trigger_tokens.data(), params.grammar_trigger_tokens.size())
+            :      llama_sampler_init_grammar(vocab, params.grammar.c_str(), "root"),
        /* .chain  = */ llama_sampler_chain_init(lparams),
        /* .prev   = */ ring_buffer<llama_token>(std::max(32, params.n_prev)),
        /* .cur    = */ {},
--- a/include/llama.h
+++ b/include/llama.h
@ -1194,17 +1194,18 @@ extern "C" {
                               float   tau,
                               float   eta);

-    DEPRECATED(LLAMA_API struct llama_sampler * llama_sampler_init_grammar(
+    LLAMA_API struct llama_sampler * llama_sampler_init_grammar(
            const struct llama_vocab * vocab,
                          const char * grammar_str,
-                          const char * grammar_root),
-            "use llama_sampler_grammar_init instead");
+                          const char * grammar_root);

-    LLAMA_API struct llama_sampler * llama_sampler_grammar_init(
+    /// @details Lazy grammar sampler, introduced in https://github.com/ggerganov/llama.cpp/pull/9639
+    /// @param trigger_words A list of words that will trigger the grammar sampler. This may be updated to a loose regex syntax (w/ ^) in a near future.
+    /// @param trigger_tokens A list of tokens that will trigger the grammar sampler.
+    LLAMA_API struct llama_sampler * llama_sampler_init_grammar_lazy(
            const struct llama_vocab * vocab,
                          const char * grammar_str,
                          const char * grammar_root,
-                                  bool lazy,
                         const char ** trigger_words,
                                size_t num_trigger_words,
                   const llama_token * trigger_tokens,
--- a/src/llama-sampling.cpp
+++ b/src/llama-sampling.cpp
@ -1433,6 +1433,17 @@ static void llama_sampler_grammar_apply(struct llama_sampler * smpl, llama_token
    }
 }

+// Fwd declare to break reset --> init_impl --> llama_sampler_grammar_i --> reset cycle.
+static struct llama_sampler * llama_sampler_init_grammar_impl(
+        const struct llama_vocab * vocab,
+                      const char * grammar_str,
+                      const char * grammar_root,
+                              bool lazy,
+                     const char ** trigger_words,
+                            size_t num_trigger_words,
+               const llama_token * trigger_tokens,
+                            size_t num_trigger_tokens);
+
 static void llama_sampler_grammar_reset(struct llama_sampler * smpl) {
    auto * ctx = (llama_sampler_grammar *) smpl->ctx;
    if (!ctx->grammar) {
@ -1454,7 +1465,7 @@ static void llama_sampler_grammar_reset(struct llama_sampler * smpl) {
 static struct llama_sampler * llama_sampler_grammar_clone(const struct llama_sampler * smpl) {
    const auto * ctx = (const llama_sampler_grammar *) smpl->ctx;

-    auto * result = llama_sampler_grammar_init(ctx->vocab, nullptr, nullptr, false, nullptr, 0, nullptr, 0);
+    auto * result = llama_sampler_init_grammar_impl(ctx->vocab, nullptr, nullptr, false, nullptr, 0, nullptr, 0);

    // copy the state
    {
@ -1490,15 +1501,7 @@ static struct llama_sampler_i llama_sampler_grammar_i = {
    /* .free   = */ llama_sampler_grammar_free,
 };

-
-struct llama_sampler * llama_sampler_init_grammar(
-        const struct llama_vocab * vocab,
-                      const char * grammar_str,
-                      const char * grammar_root) {
-    return llama_sampler_grammar_init(vocab, grammar_str, grammar_root, false, nullptr, 0, nullptr, 0);
-}
-
-struct llama_sampler * llama_sampler_grammar_init(
+static struct llama_sampler * llama_sampler_init_grammar_impl(
        const struct llama_vocab * vocab,
                      const char * grammar_str,
                      const char * grammar_root,
@ -1531,6 +1534,24 @@ struct llama_sampler * llama_sampler_grammar_init(
    };
 }

+struct llama_sampler * llama_sampler_init_grammar(
+        const struct llama_vocab * vocab,
+                      const char * grammar_str,
+                      const char * grammar_root) {
+    return llama_sampler_init_grammar_impl(vocab, grammar_str, grammar_root, /* lazy= */ false, nullptr, 0, nullptr, 0);
+}
+
+struct llama_sampler * llama_sampler_init_grammar_lazy(
+        const struct llama_vocab * vocab,
+                      const char * grammar_str,
+                      const char * grammar_root,
+                     const char ** trigger_words,
+                            size_t num_trigger_words,
+               const llama_token * trigger_tokens,
+                            size_t num_trigger_tokens) {
+    return llama_sampler_init_grammar_impl(vocab, grammar_str, grammar_root, /* lazy= */ true, trigger_words, num_trigger_words, trigger_tokens, num_trigger_tokens);
+}
+
 // penalties

 struct llama_sampler_penalties {