Fix build

+ ggml-opencl.c
spm: link with CLBlast
2023-05-06 21:44:07 -04:00 · 2023-05-06 21:35:00 -04:00 · 2023-05-06 21:34:13 -04:00 · 2023-05-06 21:33:32 -04:00 · 2023-05-06 08:24:48 +07:00
7 changed files with 24 additions and 18 deletions
--- a/.gitignore
+++ b/.gitignore
@ -21,6 +21,7 @@ build-sanitize-addr/
 build-sanitize-thread/

 models/*
+*.bin

 /main
 /quantize
--- a/Package.swift
+++ b/Package.swift
@ -2,6 +2,9 @@

 import PackageDescription

+let unsafeFlags = ["-Wno-shorten-64-to-32", "-I/opt/homebrew/opt/clblast/include"]
+let defines = ["GGML_USE_ACCELERATE", "GGML_USE_CLBLAST"]
+
 let package = Package(
    name: "llama",
    products: [
@ -11,12 +14,11 @@ let package = Package(
        .target(
            name: "llama",
            path: ".",
-            sources: ["ggml.c", "llama.cpp"],
+            sources: ["ggml.c", "llama.cpp", "ggml-opencl.c"],
            publicHeadersPath: "spm-headers",
-            cSettings: [.unsafeFlags(["-Wno-shorten-64-to-32"]), .define("GGML_USE_ACCELERATE")],
-            linkerSettings: [
-                .linkedFramework("Accelerate")
-            ]
+            cSettings: [.unsafeFlags(unsafeFlags)] + defines.map { .define($0) },
+            cxxSettings: [.unsafeFlags(unsafeFlags)] + defines.map { .define($0) },
+            linkerSettings: [.linkedFramework("Accelerate"), .linkedFramework("OpenCL")]
        ),
    ],
    cxxLanguageStandard: .cxx11
--- a/examples/main/main.cpp
+++ b/examples/main/main.cpp
@ -444,10 +444,10 @@ int main(int argc, char ** argv) {
                        id = llama_sample_token_mirostat_v2(ctx, &candidates_p, mirostat_tau, mirostat_eta, &mirostat_mu);
                    } else {
                        // Temperature sampling
-                        llama_sample_top_k(ctx, &candidates_p, top_k);
-                        llama_sample_tail_free(ctx, &candidates_p, tfs_z);
-                        llama_sample_typical(ctx, &candidates_p, typical_p);
-                        llama_sample_top_p(ctx, &candidates_p, top_p);
+                        llama_sample_top_k(ctx, &candidates_p, top_k, 1);
+                        llama_sample_tail_free(ctx, &candidates_p, tfs_z, 1);
+                        llama_sample_typical(ctx, &candidates_p, typical_p, 1);
+                        llama_sample_top_p(ctx, &candidates_p, top_p, 1);
                        llama_sample_temperature(ctx, &candidates_p, temp);
                        id = llama_sample_token(ctx, &candidates_p);
                    }
--- a/ggml.c
+++ b/ggml.c
@ -137,6 +137,9 @@ inline static void* ggml_aligned_malloc(size_t size) {

 #if defined(GGML_USE_ACCELERATE)
 #include <Accelerate/Accelerate.h>
+#if defined(GGML_USE_CLBLAST) // allow usage of CLBlast alongside Accelerate functions
+#include "ggml-opencl.h"
+#endif
 #elif defined(GGML_USE_OPENBLAS)
 #include <cblas.h>
 #elif defined(GGML_USE_CUBLAS)
--- a/llama.cpp
+++ b/llama.cpp
@ -1791,7 +1791,7 @@ llama_token llama_sample_token_mirostat(struct llama_context * ctx, llama_token_
    float k = powf((epsilon_hat * powf(2, *mu)) / (1 - powf(N, -epsilon_hat)), 1 / s_hat);

    // Sample the next word X using top-k sampling
-    llama_sample_top_k(nullptr, candidates, int(k));
+    llama_sample_top_k(nullptr, candidates, int(k), 1);
    if (ctx) {
        ctx->t_sample_us += ggml_time_us() - t_start_sample_us;
    }
--- a/llama.h
+++ b/llama.h
@ -202,16 +202,16 @@ extern "C" {
    LLAMA_API void llama_sample_softmax(struct llama_context * ctx, llama_token_data_array * candidates);

    /// @details Top-K sampling described in academic paper "The Curious Case of Neural Text Degeneration" https://arxiv.org/abs/1904.09751
-    LLAMA_API void llama_sample_top_k(struct llama_context * ctx, llama_token_data_array * candidates, int k, size_t min_keep = 1);
+    LLAMA_API void llama_sample_top_k(struct llama_context * ctx, llama_token_data_array * candidates, int k, size_t min_keep);

    /// @details Nucleus sampling described in academic paper "The Curious Case of Neural Text Degeneration" https://arxiv.org/abs/1904.09751
-    LLAMA_API void llama_sample_top_p(struct llama_context * ctx, llama_token_data_array * candidates, float p, size_t min_keep = 1);
+    LLAMA_API void llama_sample_top_p(struct llama_context * ctx, llama_token_data_array * candidates, float p, size_t min_keep);

    /// @details Tail Free Sampling described in https://www.trentonbricken.com/Tail-Free-Sampling/.
-    LLAMA_API void llama_sample_tail_free(struct llama_context * ctx, llama_token_data_array * candidates, float z, size_t min_keep = 1);
+    LLAMA_API void llama_sample_tail_free(struct llama_context * ctx, llama_token_data_array * candidates, float z, size_t min_keep);

    /// @details Locally Typical Sampling implementation described in the paper https://arxiv.org/abs/2202.00666.
-    LLAMA_API void llama_sample_typical(struct llama_context * ctx, llama_token_data_array * candidates, float p, size_t min_keep = 1);
+    LLAMA_API void llama_sample_typical(struct llama_context * ctx, llama_token_data_array * candidates, float p, size_t min_keep);
    LLAMA_API void llama_sample_temperature(struct llama_context * ctx, llama_token_data_array * candidates, float temp);

    /// @details Mirostat 1.0 algorithm described in the paper https://arxiv.org/abs/2007.14966. Uses tokens instead of words.
--- a/tests/test-sampling.cpp
+++ b/tests/test-sampling.cpp
@ -32,7 +32,7 @@ void test_top_k(const std::vector<float> & probs,
    llama_token_data_array candidates_p = { candidates.data(), candidates.size(), false };
    llama_sample_softmax(nullptr, &candidates_p);
    DUMP(&candidates_p);
-    llama_sample_top_k(nullptr, &candidates_p, k);
+    llama_sample_top_k(nullptr, &candidates_p, k, 1);
    DUMP(&candidates_p);

    assert(candidates_p.size == expected_probs.size());
@ -57,7 +57,7 @@ void test_top_p(const std::vector<float> & probs,
    llama_token_data_array candidates_p = { candidates.data(), candidates.size(), false };
    llama_sample_softmax(nullptr, &candidates_p);
    DUMP(&candidates_p);
-    llama_sample_top_p(nullptr, &candidates_p, p);
+    llama_sample_top_p(nullptr, &candidates_p, p, 1);
    DUMP(&candidates_p);

    assert(candidates_p.size == expected_probs.size());
@ -80,7 +80,7 @@ void test_tfs(const std::vector<float> & probs,

    llama_token_data_array candidates_p = { candidates.data(), candidates.size(), false };
    DUMP(&candidates_p);
-    llama_sample_tail_free(nullptr, &candidates_p, z);
+    llama_sample_tail_free(nullptr, &candidates_p, z, 1);
    DUMP(&candidates_p);

    assert(candidates_p.size == expected_probs.size());
@ -103,7 +103,7 @@ void test_typical(const std::vector<float> & probs,

    llama_token_data_array candidates_p = { candidates.data(), candidates.size(), false };
    DUMP(&candidates_p);
-    llama_sample_typical(nullptr, &candidates_p, p);
+    llama_sample_typical(nullptr, &candidates_p, p, 1);
    DUMP(&candidates_p);

    assert(candidates_p.size == expected_probs.size());
Author	SHA1	Message	Date
Jed Fox	4baa85633a	Fix build	2023-05-06 21:44:07 -04:00
Jed Fox	2dc7fc9491	+ ggml-opencl.c	2023-05-06 21:35:00 -04:00
Jed Fox	dc61b7c682	spm: link with CLBlast	2023-05-06 21:34:13 -04:00
Jed Fox	0e3d7fd4e9	Remove default arguments from sampling functions (#1343 )	2023-05-06 21:33:32 -04:00
swittk	1fa3128d2a	Allow usage of CLBlast alongside Accelerate.framework Minor edit in ggml.c which originally would prevent OpenCL from loading completely if GGML_USE_ACCELERATE was defined. Minor speedup in prompt eval time.	2023-05-06 08:24:48 +07:00