ggml: add Qualcomm QNN(Qualcomm Neural Network,aka Qualcomm AI Engine Direct) backend

2024-04-24 16:28:18 +08:00 · 2024-04-24 16:28:18 +08:00 · b0c3013f2e
commit b0c3013f2e
parent 3fec68be4e
4 changed files with 4960 additions and 2 deletions
--- a/ggml-qnn.cpp
+++ b/ggml-qnn.cpp
--- a/ggml-qnn.h
+++ b/ggml-qnn.h
@ -0,0 +1,55 @@
+/*
+ * MIT license
+ * Copyright (C) 2024 GGML Authors
+ * SPDX-License-Identifier: MIT
+ *
+ * this is implementation of ggml QNN(Qualcomm Nerual Network, aka AI Engine Direct) backend
+ */
+#pragma once
+
+#include "ggml.h"
+#include "ggml-backend.h"
+
+#ifdef __cplusplus
+extern "C" {
+#endif
+
+
+#define GGML_QNN_NAME           "QNN"
+#define GGML_QNN_MAX_DEVICES    3
+
+//QNN cDSP and HTA backend would not be used currently, just focus on QNN CPU/GPU/HTP(aka DSP) backend currently
+enum QNNBackend {
+    QNN_CPU,
+    QNN_GPU,
+    QNN_HTP,
+};
+
+GGML_API int            ggml_backend_qnn_reg_devices();
+
+/**
+ *
+ * @param device            0: QNN_CPU 1: QNN_GPU 2: QNN_HTP(aka DSP)
+ * @param qnn_lib_path      qnn library path, such as "/data/data/com.ggml.llamacpp/" on Android which can got by JNI from Java layer
+ * @return
+ */
+GGML_API ggml_backend_t ggml_backend_qnn_init(size_t dev_num, const char * qnn_lib_path);
+
+GGML_API bool           ggml_backend_is_qnn(ggml_backend_t backend);
+
+GGML_API void           ggml_backend_qnn_set_n_threads(ggml_backend_t backend, int n_threads);
+
+GGML_API int            ggml_backend_qnn_get_device_count(void);
+GGML_API void           ggml_backend_qnn_get_device_description(int device, char * description, size_t description_size);
+
+
+GGML_API ggml_backend_buffer_type_t ggml_backend_qnn_buffer_type(size_t dev_num);
+
+
+//temporary API, should be removed in the future
+GGML_API bool           ggml_qnn_compute_forward(struct ggml_compute_params * params, struct ggml_tensor * tensor);
+
+
+#ifdef __cplusplus
+}
+#endif
--- a/ggml.c
+++ b/ggml.c
@ -16153,7 +16153,8 @@ static void ggml_compute_forward_cross_entropy_loss_back(

 /////////////////////////////////

-static void ggml_compute_forward(struct ggml_compute_params * params, struct ggml_tensor * tensor) {
+//workaround for Qualcomm QNN backend
+void ggml_compute_forward(struct ggml_compute_params * params, struct ggml_tensor * tensor) {
    GGML_ASSERT(params);

    if (tensor->op == GGML_OP_NONE || ggml_is_empty(tensor)) {
--- a/llama.cpp
+++ b/llama.cpp
@ -17,6 +17,8 @@
 #  include "ggml-sycl.h"
 #elif defined(GGML_USE_KOMPUTE)
 #   include "ggml-kompute.h"
+#elif defined(GGML_USE_QNN)
+#   include "ggml-qnn.h"
 #endif

 #ifdef GGML_USE_METAL
@ -1680,6 +1682,8 @@ static ggml_backend_buffer_type_t llama_default_buffer_type_offload(int gpu) {
    if (buft == nullptr) {
        LLAMA_LOG_WARN("%s: cannot use GPU %d, check `vulkaninfo --summary`\n", __func__, gpu);
    }
+#elif defined(GGML_USE_QNN)
+    buft = ggml_backend_qnn_buffer_type(gpu);
 #endif

    if (buft == nullptr) {
@ -1720,6 +1724,8 @@ static size_t llama_get_device_count() {
    return ggml_backend_sycl_get_device_count();
 #elif defined(GGML_USE_VULKAN)
    return ggml_backend_vk_get_device_count();
+#elif defined(GGML_USE_QNN)
+    return ggml_backend_qnn_get_device_count();
 #else
    return 1;
 #endif
@ -15090,6 +15096,8 @@ size_t llama_max_devices(void) {
    return GGML_SYCL_MAX_DEVICES;
 #elif defined(GGML_USE_VULKAN)
    return GGML_VK_MAX_DEVICES;
+#elif defined(GGML_USE_QNN)
+    return GGML_QNN_MAX_DEVICES;
 #else
    return 1;
 #endif
@ -15105,7 +15113,7 @@ bool llama_supports_mlock(void) {

 bool llama_supports_gpu_offload(void) {
 #if defined(GGML_USE_CUDA) || defined(GGML_USE_CLBLAST) || defined(GGML_USE_METAL) || defined(GGML_USE_VULKAN) || \
-    defined(GGML_USE_SYCL) || defined(GGML_USE_KOMPUTE)
+    defined(GGML_USE_SYCL) || defined(GGML_USE_KOMPUTE) || defined(GGML_USE_QNN)
    // Defined when llama.cpp is compiled with support for offloading model layers to GPU.
    return true;
 #else
@ -15392,6 +15400,17 @@ struct llama_context * llama_new_context_with_model(
            }
            ctx->backends.push_back(backend);
        }
+#elif defined(GGML_USE_QNN)
+        if (model->n_gpu_layers > 0) {
+            //the second param is package name of Andorid app, can be got by JNI from Java layer
+            ggml_backend_t backend = ggml_backend_qnn_init(QNN_CPU, "/data/data/com.ggml.llamacpp/");
+            if (nullptr == backend) {
+                LLAMA_LOG_ERROR("%s: failed to initialize QNN backend\n", __func__);
+                llama_free(ctx);
+                return nullptr;
+            }
+            ctx->backends.push_back(backend);
+        }
 #endif
        ctx->backend_cpu = ggml_backend_cpu_init();
        if (ctx->backend_cpu == nullptr) {
@ -17558,6 +17577,14 @@ void llama_reset_timings(struct llama_context * ctx) {
    ctx->t_p_eval_us = ctx->n_p_eval = 0;
 }

+static int llama_has_qnn(void) {
+#ifdef GGML_USE_QNN
+    return 1;
+#else
+    return 0;
+#endif
+}
+
 const char * llama_print_system_info(void) {
    static std::string s;

@ -17579,6 +17606,7 @@ const char * llama_print_system_info(void) {
    s += "SSSE3 = "       + std::to_string(ggml_cpu_has_ssse3())       + " | ";
    s += "VSX = "         + std::to_string(ggml_cpu_has_vsx())         + " | ";
    s += "MATMUL_INT8 = " + std::to_string(ggml_cpu_has_matmul_int8()) + " | ";
+    s += "QNN = "         + std::to_string(llama_has_qnn())            + " | ";

    return s.c_str();
 }