fix gradient accumulation bug where the same batch was used for each microstep

2023-09-06 22:45:36 +02:00 · 2023-09-06 22:45:36 +02:00 · 0c2c9c7545
commit 0c2c9c7545
parent de6170d818
2 changed files with 2 additions and 2 deletions
--- a/examples/finetune/finetune.cpp
+++ b/examples/finetune/finetune.cpp
@ -2449,7 +2449,7 @@ void opt_callback(void * vdata, int accum_step, float * sched) {
        data->samples_size,
        data->tokens_data,
        data->tokens_size,
-        opt->iter * params->n_gradient_accumulation,
+        opt->iter*params->n_gradient_accumulation + accum_step,
        data->tokens_input,
        data->target_probs);

--- a/examples/train-text-from-scratch/train-text-from-scratch.cpp
+++ b/examples/train-text-from-scratch/train-text-from-scratch.cpp
@ -1846,7 +1846,7 @@ void opt_callback(void * vdata, int accum_step, float * sched) {
        data->samples_size,
        data->tokens_data,
        data->tokens_size,
-        opt->iter * params->n_gradient_accumulation,
+        opt->iter*params->n_gradient_accumulation + accum_step,
        data->tokens_input,
        data->target_logits,
        data->target_probs);