diff --git a/llama.cpp b/llama.cpp index ccec53c86..92a787096 100644 --- a/llama.cpp +++ b/llama.cpp @@ -4213,7 +4213,7 @@ int llama_get_vocab( } struct llama_layer * llama_get_layer_from_model( - const struct llama_model * model, + struct llama_model * model, int layer_idx) { if (layer_idx < 0 || layer_idx >= model->hparams.n_layer) { return NULL; @@ -4222,57 +4222,51 @@ struct llama_layer * llama_get_layer_from_model( } } -struct llama_layer * llama_get_layer( - const struct llama_context * ctx, - int layer_idx) { - return llama_get_layer_from_model(&ctx->model, layer_idx); -} - -struct ggml_tensor * llama_get_model_tok_embeddings(const struct llama_model * model) { +struct ggml_tensor * llama_get_model_tok_embeddings(struct llama_model * model) { return model->tok_embeddings; } -struct ggml_tensor * llama_get_model_norm(const struct llama_model * model) { +struct ggml_tensor * llama_get_model_norm(struct llama_model * model) { return model->norm; } -struct ggml_tensor * llama_get_model_output(const struct llama_model * model) { +struct ggml_tensor * llama_get_model_output(struct llama_model * model) { return model->output; } -struct ggml_tensor * llama_get_layer_attention_norm(const struct llama_layer * layer) { +struct ggml_tensor * llama_get_layer_attention_norm(struct llama_layer * layer) { return layer->attention_norm; } -struct ggml_tensor * llama_get_layer_wq(const struct llama_layer * layer) { +struct ggml_tensor * llama_get_layer_wq(struct llama_layer * layer) { return layer->wq; } -struct ggml_tensor * llama_get_layer_wk(const struct llama_layer * layer) { +struct ggml_tensor * llama_get_layer_wk(struct llama_layer * layer) { return layer->wk; } -struct ggml_tensor * llama_get_layer_wv(const struct llama_layer * layer) { +struct ggml_tensor * llama_get_layer_wv(struct llama_layer * layer) { return layer->wv; } -struct ggml_tensor * llama_get_layer_wo(const struct llama_layer * layer) { +struct ggml_tensor * llama_get_layer_wo(struct llama_layer * layer) { return layer->wo; } -struct ggml_tensor * llama_get_layer_ffn_norm(const struct llama_layer * layer) { +struct ggml_tensor * llama_get_layer_ffn_norm(struct llama_layer * layer) { return layer->ffn_norm; } -struct ggml_tensor * llama_get_layer_w1(const struct llama_layer * layer) { +struct ggml_tensor * llama_get_layer_w1(struct llama_layer * layer) { return layer->w1; } -struct ggml_tensor * llama_get_layer_w2(const struct llama_layer * layer) { +struct ggml_tensor * llama_get_layer_w2(struct llama_layer * layer) { return layer->w2; } -struct ggml_tensor * llama_get_layer_w3(const struct llama_layer * layer) { +struct ggml_tensor * llama_get_layer_w3(struct llama_layer * layer) { return layer->w3; } diff --git a/llama.h b/llama.h index e74279aba..365bb185f 100644 --- a/llama.h +++ b/llama.h @@ -358,27 +358,23 @@ extern "C" { int capacity); // Get a llama layer - LLAMA_API struct llama_layer * llama_get_layer( - const struct llama_context * ctx, - int layer); - LLAMA_API struct llama_layer * llama_get_layer_from_model( - const struct llama_model * model, - int layer); + struct llama_model * model, + int layer); - LLAMA_API struct ggml_tensor * llama_get_model_tok_embeddings(const struct llama_model * model); - LLAMA_API struct ggml_tensor * llama_get_model_norm (const struct llama_model * model); - LLAMA_API struct ggml_tensor * llama_get_model_output (const struct llama_model * model); + LLAMA_API struct ggml_tensor * llama_get_model_tok_embeddings(struct llama_model * model); + LLAMA_API struct ggml_tensor * llama_get_model_norm (struct llama_model * model); + LLAMA_API struct ggml_tensor * llama_get_model_output (struct llama_model * model); - LLAMA_API struct ggml_tensor * llama_get_layer_attention_norm(const struct llama_layer * layer); - LLAMA_API struct ggml_tensor * llama_get_layer_wq (const struct llama_layer * layer); - LLAMA_API struct ggml_tensor * llama_get_layer_wk (const struct llama_layer * layer); - LLAMA_API struct ggml_tensor * llama_get_layer_wv (const struct llama_layer * layer); - LLAMA_API struct ggml_tensor * llama_get_layer_wo (const struct llama_layer * layer); - LLAMA_API struct ggml_tensor * llama_get_layer_ffn_norm (const struct llama_layer * layer); - LLAMA_API struct ggml_tensor * llama_get_layer_w1 (const struct llama_layer * layer); - LLAMA_API struct ggml_tensor * llama_get_layer_w2 (const struct llama_layer * layer); - LLAMA_API struct ggml_tensor * llama_get_layer_w3 (const struct llama_layer * layer); + LLAMA_API struct ggml_tensor * llama_get_layer_attention_norm(struct llama_layer * layer); + LLAMA_API struct ggml_tensor * llama_get_layer_wq (struct llama_layer * layer); + LLAMA_API struct ggml_tensor * llama_get_layer_wk (struct llama_layer * layer); + LLAMA_API struct ggml_tensor * llama_get_layer_wv (struct llama_layer * layer); + LLAMA_API struct ggml_tensor * llama_get_layer_wo (struct llama_layer * layer); + LLAMA_API struct ggml_tensor * llama_get_layer_ffn_norm (struct llama_layer * layer); + LLAMA_API struct ggml_tensor * llama_get_layer_w1 (struct llama_layer * layer); + LLAMA_API struct ggml_tensor * llama_get_layer_w2 (struct llama_layer * layer); + LLAMA_API struct ggml_tensor * llama_get_layer_w3 (struct llama_layer * layer); // Token logits obtained from the last call to llama_eval() // The logits for the last token are stored in the last row