llama : add infill sampler

2024-10-09 11:01:53 +03:00 · 2024-10-09 11:01:53 +03:00 · 5aaf24766a
commit 5aaf24766a
parent 55e47786e3
2 changed files with 6 additions and 0 deletions
--- a/common/common.h
+++ b/common/common.h
@ -117,6 +117,8 @@ struct common_sampler_params {
    float   temp              = 0.80f; // <= 0.0 to sample greedily, 0.0 to not output probabilities
    float   dynatemp_range    = 0.00f; // 0.0 = disabled
    float   dynatemp_exponent = 1.00f; // controls how entropy maps to temperature in dynamic temperature sampler
    float   infill_p          = 0.80f;
    float   infill_p_eog      = 0.01f;
    int32_t penalty_last_n    = 64;    // last n tokens to penalize (0 = disable penalty, -1 = context size)
    float   penalty_repeat    = 1.00f; // 1.0 = disabled
    float   penalty_freq      = 0.00f; // 0.0 = disabled
--- a/examples/server/server.cpp
+++ b/examples/server/server.cpp
@ -873,6 +873,8 @@ struct server_context {
        slot.sparams.tfs_z             = json_value(data, "tfs_z",             default_sparams.tfs_z);
        slot.sparams.typ_p             = json_value(data, "typical_p",         default_sparams.typ_p);
        slot.sparams.temp              = json_value(data, "temperature",       default_sparams.temp);
        slot.sparams.infill_p          = json_value(data, "infill_p",          default_sparams.infill_p);
        slot.sparams.infill_p_eog      = json_value(data, "infill_p_eog",      default_sparams.infill_p_eog);
        slot.sparams.dynatemp_range    = json_value(data, "dynatemp_range",    default_sparams.dynatemp_range);
        slot.sparams.dynatemp_exponent = json_value(data, "dynatemp_exponent", default_sparams.dynatemp_exponent);
        slot.sparams.penalty_last_n    = json_value(data, "repeat_last_n",     default_sparams.penalty_last_n);
@ -1241,6 +1243,8 @@ struct server_context {
            {"xtc_threshold",             slot.sparams.xtc_threshold},
            {"tfs_z",                     slot.sparams.tfs_z},
            {"typical_p",                 slot.sparams.typ_p},
            {"infill_p",                  slot.sparams.infill_p},
            {"infill_p_eog",              slot.sparams.infill_p_eog},
            {"repeat_last_n",             slot.sparams.penalty_last_n},
            {"repeat_penalty",            slot.sparams.penalty_repeat},
            {"presence_penalty",          slot.sparams.penalty_present},