refactor to disable mmap for SYCL backend

2024-04-12 15:23:31 +08:00 · 2024-04-12 15:23:31 +08:00 · 391decad1c
commit 391decad1c
parent d053698c12
4 changed files with 12 additions and 19 deletions
--- a/examples/sycl/run-llama2.sh
+++ b/examples/sycl/run-llama2.sh
@ -12,6 +12,7 @@ if [ $# -gt 0 ]; then
    GGML_SYCL_SINGLE_GPU=1
 else
    GGML_SYCL_DEVICE=0
+    GGML_SYCL_SINGLE_GPU=0
 fi

 #export GGML_SYCL_DEBUG=1
--- a/ggml-backend.c
+++ b/ggml-backend.c
@ -196,6 +196,13 @@ size_t ggml_backend_get_max_size(ggml_backend_t backend) {
    return ggml_backend_buft_get_max_size(ggml_backend_get_default_buffer_type(backend));
 }

+bool ggml_backend_is_support_mmap() {
+#ifdef GGML_USE_SYCL
+    return false;
+#endif
+    return true;
+}
+
 void ggml_backend_tensor_set_async(ggml_backend_t backend, struct ggml_tensor * tensor, const void * data, size_t offset, size_t size) {
    GGML_ASSERT(tensor->data != NULL && "tensor not allocated");
    GGML_ASSERT(offset + size <= ggml_nbytes(tensor) && "tensor write out of bounds");
--- a/ggml-backend.h
+++ b/ggml-backend.h
@ -26,6 +26,7 @@ extern "C" {
    GGML_API           bool                  ggml_backend_buft_supports_backend(ggml_backend_buffer_type_t buft, ggml_backend_t backend);
    GGML_API           bool                  ggml_backend_buft_is_host         (ggml_backend_buffer_type_t buft);

+
    // buffer
    enum ggml_backend_buffer_usage {
        GGML_BACKEND_BUFFER_USAGE_ANY = 0,
@ -58,6 +59,7 @@ extern "C" {
    GGML_API ggml_backend_buffer_t      ggml_backend_alloc_buffer(ggml_backend_t backend, size_t size);
    GGML_API size_t                     ggml_backend_get_alignment(ggml_backend_t backend);
    GGML_API size_t                     ggml_backend_get_max_size(ggml_backend_t backend);
+    GGML_API bool                       ggml_backend_is_support_mmap();

    GGML_API void ggml_backend_tensor_set_async(ggml_backend_t backend,       struct ggml_tensor * tensor, const void * data, size_t offset, size_t size);
    GGML_API void ggml_backend_tensor_get_async(ggml_backend_t backend, const struct ggml_tensor * tensor,       void * data, size_t offset, size_t size);
--- a/llama.cpp
+++ b/llama.cpp
@ -1183,24 +1183,7 @@ struct llama_mmap {

    llama_mmap(const llama_mmap &) = delete;

-#ifdef GGML_USE_SYCL
-    static constexpr bool SUPPORTED = false;
-
-    llama_mmap(struct llama_file * file, size_t prefetch = -1, bool numa = false) {
-        GGML_UNUSED(file);
-        GGML_UNUSED(prefetch);
-        GGML_UNUSED(numa);
-
-        throw std::runtime_error("mmap not supported");
-    }
-
-    void unmap_fragment(size_t first, size_t last) {
-        GGML_UNUSED(first);
-        GGML_UNUSED(last);
-
-        throw std::runtime_error("mmap not supported");
-    }
-#elif defined(_POSIX_MAPPED_FILES)
+#ifdef _POSIX_MAPPED_FILES
    static constexpr bool SUPPORTED = true;

    // list of mapped fragments (first_offset, last_offset)
@ -3129,7 +3112,7 @@ struct llama_model_loader {
            }
        }

-        if (!llama_mmap::SUPPORTED) {
+        if (!llama_mmap::SUPPORTED || !ggml_backend_is_support_mmap()) {
            LLAMA_LOG_WARN("%s: mmap is not supported on this platform\n", __func__);
            use_mmap = false;
        }