diff --git a/common/common.cpp b/common/common.cpp index d15e1810b..8c0993c97 100644 --- a/common/common.cpp +++ b/common/common.cpp @@ -2640,6 +2640,8 @@ float llama_embd_similarity_cos(const float * embd1, const float * embd2, int n) // static llama_control_vector_data llama_control_vector_load_one(const llama_control_vector_load_info & load_info) { + auto start = ggml_time_ms(); + printf("control vector load_one...\n"); int32_t n_tensors; size_t n_bytes = 0; @@ -2684,7 +2686,6 @@ static llama_control_vector_data llama_control_vector_load_one(const llama_contr fprintf(stderr, "%s: direction tensor invalid in %s\n", __func__, load_info.fname.c_str()); gguf_free(meta_ctx_gguf); ggml_free(meta_ctx); - return result; } } @@ -2751,10 +2752,14 @@ static llama_control_vector_data llama_control_vector_load_one(const llama_contr gguf_free(ctx_gguf); ggml_free(ctx); + auto end = ggml_time_ms(); + printf("control vector load_one took %ums\n", end - start); return result; } llama_control_vector_data llama_control_vector_load(const std::vector & load_infos) { + auto start = ggml_time_ms(); + printf("control vector load...\n"); llama_control_vector_data result = { -1, {} }; for (const auto & info : load_infos) { @@ -2764,7 +2769,7 @@ llama_control_vector_data llama_control_vector_load(const std::vectormodel; llama_control_vector & cvec = lctx->cvec; @@ -14054,6 +14066,8 @@ int32_t llama_control_vector_apply(struct llama_context * lctx, const float * da // disable the current control vector (but leave allocated for later) cvec.layer_start = -1; cvec.layer_end = -1; + auto end = ggml_time_ms(); + printf("control vector apply took %ums\n", end - start); return 0; } @@ -14064,6 +14078,7 @@ int32_t llama_control_vector_apply(struct llama_context * lctx, const float * da if (cvec.tensors.empty()) { if (!llama_control_vector_init(cvec, model)) { + LLAMA_LOG_ERROR("%s: control vector init failed\n", __func__); return 1; } } @@ -14080,6 +14095,8 @@ int32_t llama_control_vector_apply(struct llama_context * lctx, const float * da } } + auto end = ggml_time_ms(); + printf("control vector apply took %ums\n", end - start); return 0; }