From 476f46f7cc8b94aaf1925206828d360a17614de2 Mon Sep 17 00:00:00 2001
From: Slaren <2141330+slaren@users.noreply.github.com>
Date: Sat, 29 Apr 2023 22:25:00 +0200
Subject: [PATCH] cuBLAS: do not use pinned memory if env variable
 GGML_CUDA_NO_PINNED is set

---
 ggml-cuda.cu | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/ggml-cuda.cu b/ggml-cuda.cu
index 7d9f60764..c1ec306f0 100644
--- a/ggml-cuda.cu
+++ b/ggml-cuda.cu
@@ -355,13 +355,16 @@ cudaError_t ggml_cuda_h2d_tensor_2d(void * dst, const struct ggml_tensor * src,
 }
 
 void * ggml_cuda_host_malloc(size_t size) {
-    void * ptr = nullptr;
+    if (getenv("GGML_CUDA_NO_PINNED") != nullptr) {
+        return nullptr;
+    }
 
+    void * ptr = nullptr;
     cudaError_t err = cudaMallocHost((void **) &ptr, size);
     if (err != cudaSuccess) {
         fprintf(stderr, "WARNING: failed to allocate %.2f MB of pinned memory: %s\n",
             size/1024.0/1024.0, cudaGetErrorString(err));
-        return NULL;
+        return nullptr;
     }
 
     return ptr;