From f56cbce6b7c8eb518a61fe3c9068491241f1470e Mon Sep 17 00:00:00 2001
From: Nam Nguyen <namnguyen@google.com>
Date: Sat, 30 Dec 2023 14:26:46 -0800
Subject: [PATCH] Fix llm_build_kqv to be more generic wrt n_embd_head_k

---
 llama.cpp | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/llama.cpp b/llama.cpp
index 54229b31e..85fa4ad76 100644
--- a/llama.cpp
+++ b/llama.cpp
@@ -4281,7 +4281,6 @@ static struct ggml_tensor * llm_build_kqv(
                     float     kq_scale,
          const llm_build_cb & cb,
                     int       il) {
-    const int64_t n_embd        = hparams.n_embd;
     const int64_t n_head        = hparams.n_head;
     const int64_t n_head_kv     = hparams.n_head_kv;
     const int64_t n_embd_head_k = hparams.n_embd_head_k;
@@ -4346,7 +4345,7 @@ static struct ggml_tensor * llm_build_kqv(
     struct ggml_tensor * kqv_merged = ggml_permute(ctx, kqv, 0, 2, 1, 3);
     cb(kqv_merged, "kqv_merged", il);
 
-    struct ggml_tensor * cur = ggml_cont_2d(ctx, kqv_merged, n_embd, n_tokens);
+    struct ggml_tensor * cur = ggml_cont_2d(ctx, kqv_merged, n_embd_head_k*n_head, n_tokens);
     cb(cur, "kqv_merged_cont", il);
 
     cur = ggml_mul_mat(ctx, wo, cur);