change default AdamW weight decay parameter used in training to 0.1 as used in nanoGPT

2023-06-29 21:33:39 +02:00 · 2023-06-29 21:33:39 +02:00 · f175ead6ef
commit f175ead6ef
parent a80f184e6d
1 changed files with 1 additions and 1 deletions
--- a/examples/train-text-from-scratch/train-text-from-scratch.cpp
+++ b/examples/train-text-from-scratch/train-text-from-scratch.cpp
@ -3416,7 +3416,7 @@ struct train_params get_default_train_params() {
    params.lbfgs_n_iter      = 16;
    params.adam_n_iter       = 16;
    params.adam_alpha        = 1e-3f;
-    params.adam_decay        = 1e-3f;
+    params.adam_decay        = 1e-1f;
    params.adam_beta1        = 0.9f;
    params.adam_beta2        = 0.999f;
    params.adam_gclip        = 1.0f;