opencl: use cl_ulong for sizes and strides

2024-12-07 18:02:15 -08:00 · 2024-12-07 18:02:15 -08:00 · 9a9d92b0b9
commit 9a9d92b0b9
parent c21fc8c5f9
2 changed files with 469 additions and 475 deletions
--- a/ggml/src/ggml-opencl2/ggml-opencl2.cpp
+++ b/ggml/src/ggml-opencl2/ggml-opencl2.cpp
@ -245,7 +245,6 @@ static cl_program build_program_from_source(cl_context ctx, cl_device_id dev, co

    err = clBuildProgram(p, 0, NULL, compile_opts.c_str(), NULL, NULL);
    if(err < 0) {
-
        clGetProgramBuildInfo(p, dev, CL_PROGRAM_BUILD_LOG, 0, NULL, &log_size);
        program_log = (char*) malloc(log_size + 1);
        program_log[log_size] = '\0';
@ -1952,15 +1951,15 @@ static void ggml_cl_get_rows(ggml_backend_t backend, const ggml_tensor * src0, c
    GGML_ASSERT(dst);
    GGML_ASSERT(dst->extra);

-    const int ne00 = src0 ? src0->ne[0] : 0;
-    const int nb01 = src0 ? src0->nb[1] : 0;
-    const int nb02 = src0 ? src0->nb[2] : 0;
-    const int ne10 = src1 ? src1->ne[0] : 0;
-    const int nb10 = src1 ? src1->nb[0] : 0;
-    const int ne11 = src1 ? src1->ne[1] : 0;
-    const int nb11 = src1 ? src1->nb[1] : 0;
-    const int nb1  = dst  ?  dst->nb[1] : 0;
-    const int nb2  = dst  ?  dst->nb[2] : 0;
+    const int      ne00 = src0 ? src0->ne[0] : 0;
+    const cl_ulong nb01 = src0 ? src0->nb[1] : 0;
+    const cl_ulong nb02 = src0 ? src0->nb[2] : 0;
+    const int      ne10 = src1 ? src1->ne[0] : 0;
+    const cl_ulong nb10 = src1 ? src1->nb[0] : 0;
+    const int      ne11 = src1 ? src1->ne[1] : 0;
+    const cl_ulong nb11 = src1 ? src1->nb[1] : 0;
+    const cl_ulong nb1  = dst  ?  dst->nb[1] : 0;
+    const cl_ulong nb2  = dst  ?  dst->nb[2] : 0;

    ggml_backend_opencl2_context *backend_ctx = (ggml_backend_opencl2_context *)backend->context;
    cl_command_queue queue = backend_ctx->queue;
@ -1989,20 +1988,20 @@ static void ggml_cl_get_rows(ggml_backend_t backend, const ggml_tensor * src0, c
            GGML_ASSERT(false && "not implemented");
    }

-    CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem), &extra0->data_device));
-    CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_ulong),  &offset0));
-    CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem), &extra1->data_device));
-    CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong),  &offset1));
-    CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem), &extrad->data_device));
-    CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong),  &offsetd));
-    CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),    &ne00));
-    CL_CHECK(clSetKernelArg(kernel,  7, sizeof(int),    &nb01));
-    CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),    &nb02));
-    CL_CHECK(clSetKernelArg(kernel,  9, sizeof(int),    &ne10));
-    CL_CHECK(clSetKernelArg(kernel, 10, sizeof(int),    &nb10));
-    CL_CHECK(clSetKernelArg(kernel, 11, sizeof(int),    &nb11));
-    CL_CHECK(clSetKernelArg(kernel, 12, sizeof(int),    &nb1));
-    CL_CHECK(clSetKernelArg(kernel, 13, sizeof(int),    &nb2));
+    CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem),   &extra0->data_device));
+    CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_ulong), &offset0));
+    CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem),   &extra1->data_device));
+    CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong), &offset1));
+    CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem),   &extrad->data_device));
+    CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong), &offsetd));
+    CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),      &ne00));
+    CL_CHECK(clSetKernelArg(kernel,  7, sizeof(cl_ulong), &nb01));
+    CL_CHECK(clSetKernelArg(kernel,  8, sizeof(cl_ulong), &nb02));
+    CL_CHECK(clSetKernelArg(kernel,  9, sizeof(int),      &ne10));
+    CL_CHECK(clSetKernelArg(kernel, 10, sizeof(cl_ulong), &nb10));
+    CL_CHECK(clSetKernelArg(kernel, 11, sizeof(cl_ulong), &nb11));
+    CL_CHECK(clSetKernelArg(kernel, 12, sizeof(cl_ulong), &nb1));
+    CL_CHECK(clSetKernelArg(kernel, 13, sizeof(cl_ulong), &nb2));

    size_t global_work_size[] = {(size_t)ne10, (size_t)ne11, 1};
    size_t local_work_size[] = {1, 1, 1};
@ -2068,7 +2067,6 @@ static void ggml_cl_add(ggml_backend_t backend, const ggml_tensor * src0, const
    cl_ulong offsetd = extrad->offset + dst->view_offs;

    bool bcast_row = false;
-    int nb = ne00;
    cl_kernel kernel;

    if (ggml_nelements(src1) == ne10 && ggml_is_contiguous(src1) && ne00 % 4 == 0 && ne10 % 4 == 0) {
@ -2078,7 +2076,7 @@ static void ggml_cl_add(ggml_backend_t backend, const ggml_tensor * src0, const
        GGML_ASSERT(ne11 == 1);

        bcast_row = true;
-        nb = ne00 / 4;
+        int ne = ne00 / 4;
        kernel = backend_ctx->kernel_add_row;

        CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem),   &extra0->data_device));
@ -2087,7 +2085,7 @@ static void ggml_cl_add(ggml_backend_t backend, const ggml_tensor * src0, const
        CL_CHECK(clSetKernelArg(kernel, 3, sizeof(cl_ulong), &offset1));
        CL_CHECK(clSetKernelArg(kernel, 4, sizeof(cl_mem),   &extrad->data_device));
        CL_CHECK(clSetKernelArg(kernel, 5, sizeof(cl_ulong), &offsetd));
-        CL_CHECK(clSetKernelArg(kernel, 6, sizeof(int),      &nb));
+        CL_CHECK(clSetKernelArg(kernel, 6, sizeof(int),      &ne));
    } else {
        kernel = backend_ctx->kernel_add;

@ -2167,30 +2165,30 @@ static void ggml_cl_mul(ggml_backend_t backend, const ggml_tensor * src0, const
    const int ne02 = src0 ? src0->ne[2] : 0;
    const int ne03 = src0 ? src0->ne[3] : 0;

-    const int nb00 = src0 ? src0->nb[0] : 0;
-    const int nb01 = src0 ? src0->nb[1] : 0;
-    const int nb02 = src0 ? src0->nb[2] : 0;
-    const int nb03 = src0 ? src0->nb[3] : 0;
+    const cl_ulong nb00 = src0 ? src0->nb[0] : 0;
+    const cl_ulong nb01 = src0 ? src0->nb[1] : 0;
+    const cl_ulong nb02 = src0 ? src0->nb[2] : 0;
+    const cl_ulong nb03 = src0 ? src0->nb[3] : 0;

    const int ne10 = src1 ? src1->ne[0] : 0;
    const int ne11 = src1 ? src1->ne[1] : 0;
    const int ne12 = src1 ? src1->ne[2] : 0;
    const int ne13 = src1 ? src1->ne[3] : 0; UNUSED(ne13);

-    const int nb10 = src1 ? src1->nb[0] : 0;
-    const int nb11 = src1 ? src1->nb[1] : 0;
-    const int nb12 = src1 ? src1->nb[2] : 0;
-    const int nb13 = src1 ? src1->nb[3] : 0; UNUSED(nb13);
+    const cl_ulong nb10 = src1 ? src1->nb[0] : 0;
+    const cl_ulong nb11 = src1 ? src1->nb[1] : 0;
+    const cl_ulong nb12 = src1 ? src1->nb[2] : 0;
+    const cl_ulong nb13 = src1 ? src1->nb[3] : 0; UNUSED(nb13);

    const int ne0  = dst ? dst->ne[0] : 0;
    const int ne1  = dst ? dst->ne[1] : 0;
    const int ne2  = dst ? dst->ne[2] : 0;
    const int ne3  = dst ? dst->ne[3] : 0;

-    const int nb0  = dst ? dst->nb[0] : 0;
-    const int nb1  = dst ? dst->nb[1] : 0;
-    const int nb2  = dst ? dst->nb[2] : 0;
-    const int nb3  = dst ? dst->nb[3] : 0;
+    const cl_ulong nb0  = dst ? dst->nb[0] : 0;
+    const cl_ulong nb1  = dst ? dst->nb[1] : 0;
+    const cl_ulong nb2  = dst ? dst->nb[2] : 0;
+    const cl_ulong nb3  = dst ? dst->nb[3] : 0;

    ggml_backend_opencl2_context *backend_ctx = (ggml_backend_opencl2_context *)backend->context;
    cl_command_queue queue = backend_ctx->queue;
@ -2204,7 +2202,6 @@ static void ggml_cl_mul(ggml_backend_t backend, const ggml_tensor * src0, const
    cl_ulong offsetd = extrad->offset + dst->view_offs;

    bool bcast_row = false;
-    int nb = ne00;
    cl_kernel kernel;

    if (ggml_nelements(src1) == ne10 && ggml_is_contiguous(src1) && ne00 % 4 == 0 && ne10 % 4 == 0) {
@ -2214,49 +2211,49 @@ static void ggml_cl_mul(ggml_backend_t backend, const ggml_tensor * src0, const
        GGML_ASSERT(ne11 == 1);

        bcast_row = true;
-        nb = ne00 / 4;
+        int ne = ne00 / 4;
        kernel = backend_ctx->kernel_mul_row;

-        CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem), &extra0->data_device));
-        CL_CHECK(clSetKernelArg(kernel, 1, sizeof(cl_ulong),  &offset0));
-        CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem), &extra1->data_device));
-        CL_CHECK(clSetKernelArg(kernel, 3, sizeof(cl_ulong),  &offset1));
-        CL_CHECK(clSetKernelArg(kernel, 4, sizeof(cl_mem), &extrad->data_device));
-        CL_CHECK(clSetKernelArg(kernel, 5, sizeof(cl_ulong),  &offsetd));
-        CL_CHECK(clSetKernelArg(kernel, 6, sizeof(int),    &nb));
+        CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem),   &extra0->data_device));
+        CL_CHECK(clSetKernelArg(kernel, 1, sizeof(cl_ulong), &offset0));
+        CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem),   &extra1->data_device));
+        CL_CHECK(clSetKernelArg(kernel, 3, sizeof(cl_ulong), &offset1));
+        CL_CHECK(clSetKernelArg(kernel, 4, sizeof(cl_mem),   &extrad->data_device));
+        CL_CHECK(clSetKernelArg(kernel, 5, sizeof(cl_ulong), &offsetd));
+        CL_CHECK(clSetKernelArg(kernel, 6, sizeof(int),      &ne));
    } else {
        kernel = backend_ctx->kernel_mul;

-        CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem), &extra0->data_device));
-        CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_ulong),  &offset0));
-        CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem), &extra1->data_device));
-        CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong),  &offset1));
-        CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem), &extrad->data_device));
-        CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong),  &offsetd));
-        CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),    &ne00));
-        CL_CHECK(clSetKernelArg(kernel,  7, sizeof(int),    &ne01));
-        CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),    &ne02));
-        CL_CHECK(clSetKernelArg(kernel,  9, sizeof(int),    &ne03));
-        CL_CHECK(clSetKernelArg(kernel, 10, sizeof(int),    &nb00));
-        CL_CHECK(clSetKernelArg(kernel, 11, sizeof(int),    &nb01));
-        CL_CHECK(clSetKernelArg(kernel, 12, sizeof(int),    &nb02));
-        CL_CHECK(clSetKernelArg(kernel, 13, sizeof(int),    &nb03));
-        CL_CHECK(clSetKernelArg(kernel, 14, sizeof(int),    &ne10));
-        CL_CHECK(clSetKernelArg(kernel, 15, sizeof(int),    &ne11));
-        CL_CHECK(clSetKernelArg(kernel, 16, sizeof(int),    &ne12));
-        CL_CHECK(clSetKernelArg(kernel, 17, sizeof(int),    &ne13));
-        CL_CHECK(clSetKernelArg(kernel, 18, sizeof(int),    &nb10));
-        CL_CHECK(clSetKernelArg(kernel, 19, sizeof(int),    &nb11));
-        CL_CHECK(clSetKernelArg(kernel, 20, sizeof(int),    &nb12));
-        CL_CHECK(clSetKernelArg(kernel, 21, sizeof(int),    &nb13));
-        CL_CHECK(clSetKernelArg(kernel, 22, sizeof(int),    &ne0));
-        CL_CHECK(clSetKernelArg(kernel, 23, sizeof(int),    &ne1));
-        CL_CHECK(clSetKernelArg(kernel, 24, sizeof(int),    &ne2));
-        CL_CHECK(clSetKernelArg(kernel, 25, sizeof(int),    &ne3));
-        CL_CHECK(clSetKernelArg(kernel, 26, sizeof(int),    &nb0));
-        CL_CHECK(clSetKernelArg(kernel, 27, sizeof(int),    &nb1));
-        CL_CHECK(clSetKernelArg(kernel, 28, sizeof(int),    &nb2));
-        CL_CHECK(clSetKernelArg(kernel, 29, sizeof(int),    &nb3));
+        CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem),   &extra0->data_device));
+        CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_ulong), &offset0));
+        CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem),   &extra1->data_device));
+        CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong), &offset1));
+        CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem),   &extrad->data_device));
+        CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong), &offsetd));
+        CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),      &ne00));
+        CL_CHECK(clSetKernelArg(kernel,  7, sizeof(int),      &ne01));
+        CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),      &ne02));
+        CL_CHECK(clSetKernelArg(kernel,  9, sizeof(int),      &ne03));
+        CL_CHECK(clSetKernelArg(kernel, 10, sizeof(cl_ulong), &nb00));
+        CL_CHECK(clSetKernelArg(kernel, 11, sizeof(cl_ulong), &nb01));
+        CL_CHECK(clSetKernelArg(kernel, 12, sizeof(cl_ulong), &nb02));
+        CL_CHECK(clSetKernelArg(kernel, 13, sizeof(cl_ulong), &nb03));
+        CL_CHECK(clSetKernelArg(kernel, 14, sizeof(int),      &ne10));
+        CL_CHECK(clSetKernelArg(kernel, 15, sizeof(int),      &ne11));
+        CL_CHECK(clSetKernelArg(kernel, 16, sizeof(int),      &ne12));
+        CL_CHECK(clSetKernelArg(kernel, 17, sizeof(int),      &ne13));
+        CL_CHECK(clSetKernelArg(kernel, 18, sizeof(cl_ulong), &nb10));
+        CL_CHECK(clSetKernelArg(kernel, 19, sizeof(cl_ulong), &nb11));
+        CL_CHECK(clSetKernelArg(kernel, 20, sizeof(cl_ulong), &nb12));
+        CL_CHECK(clSetKernelArg(kernel, 21, sizeof(cl_ulong), &nb13));
+        CL_CHECK(clSetKernelArg(kernel, 22, sizeof(int),      &ne0));
+        CL_CHECK(clSetKernelArg(kernel, 23, sizeof(int),      &ne1));
+        CL_CHECK(clSetKernelArg(kernel, 24, sizeof(int),      &ne2));
+        CL_CHECK(clSetKernelArg(kernel, 25, sizeof(int),      &ne3));
+        CL_CHECK(clSetKernelArg(kernel, 26, sizeof(cl_ulong), &nb0));
+        CL_CHECK(clSetKernelArg(kernel, 27, sizeof(cl_ulong), &nb1));
+        CL_CHECK(clSetKernelArg(kernel, 28, sizeof(cl_ulong), &nb2));
+        CL_CHECK(clSetKernelArg(kernel, 29, sizeof(cl_ulong), &nb3));
    }

    if (bcast_row) {
@ -2318,10 +2315,10 @@ static void ggml_cl_gelu(ggml_backend_t backend, const ggml_tensor * src0, const
        kernel = backend_ctx->kernel_gelu;
    }

-    CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem), &extra0->data_device));
-    CL_CHECK(clSetKernelArg(kernel, 1, sizeof(cl_ulong),  &offset0));
-    CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem), &extrad->data_device));
-    CL_CHECK(clSetKernelArg(kernel, 3, sizeof(cl_ulong),  &offsetd));
+    CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem),   &extra0->data_device));
+    CL_CHECK(clSetKernelArg(kernel, 1, sizeof(cl_ulong), &offset0));
+    CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem),   &extrad->data_device));
+    CL_CHECK(clSetKernelArg(kernel, 3, sizeof(cl_ulong), &offsetd));

    size_t global_work_size[] = {(size_t)n, 1, 1};
    size_t local_work_size[] = {64, 1, 1};
@ -2365,10 +2362,10 @@ static void ggml_cl_silu(ggml_backend_t backend, const ggml_tensor * src0, const
        kernel = backend_ctx->kernel_silu;
    }

-    CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem), &extra0->data_device));
-    CL_CHECK(clSetKernelArg(kernel, 1, sizeof(cl_ulong),  &offset0));
-    CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem), &extrad->data_device));
-    CL_CHECK(clSetKernelArg(kernel, 3, sizeof(cl_ulong),  &offsetd));
+    CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem),   &extra0->data_device));
+    CL_CHECK(clSetKernelArg(kernel, 1, sizeof(cl_ulong), &offset0));
+    CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem),   &extrad->data_device));
+    CL_CHECK(clSetKernelArg(kernel, 3, sizeof(cl_ulong), &offsetd));

    size_t global_work_size[] = {(size_t)n, 1, 1};
    size_t local_work_size[] = {64, 1, 1};
@ -2403,10 +2400,10 @@ static void ggml_cl_relu(ggml_backend_t backend, const ggml_tensor * src0, const

    cl_kernel kernel = backend_ctx->kernel_relu;

-    CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem), &extra0->data_device));
-    CL_CHECK(clSetKernelArg(kernel, 1, sizeof(cl_ulong),  &offset0));
-    CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem), &extrad->data_device));
-    CL_CHECK(clSetKernelArg(kernel, 3, sizeof(cl_ulong),  &offsetd));
+    CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem),   &extra0->data_device));
+    CL_CHECK(clSetKernelArg(kernel, 1, sizeof(cl_ulong), &offset0));
+    CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem),   &extrad->data_device));
+    CL_CHECK(clSetKernelArg(kernel, 3, sizeof(cl_ulong), &offsetd));

    const int64_t n = ggml_nelements(dst);

@ -2448,12 +2445,12 @@ static void ggml_cl_clamp(ggml_backend_t backend, const ggml_tensor * src0, cons

    cl_kernel kernel = backend_ctx->kernel_clamp;

-    CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem), &extra0->data_device));
-    CL_CHECK(clSetKernelArg(kernel, 1, sizeof(cl_ulong),  &offset0));
-    CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem), &extrad->data_device));
-    CL_CHECK(clSetKernelArg(kernel, 3, sizeof(cl_ulong),  &offsetd));
-    CL_CHECK(clSetKernelArg(kernel, 4, sizeof(float),  &min));
-    CL_CHECK(clSetKernelArg(kernel, 5, sizeof(float),  &max));
+    CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem),   &extra0->data_device));
+    CL_CHECK(clSetKernelArg(kernel, 1, sizeof(cl_ulong), &offset0));
+    CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem),   &extrad->data_device));
+    CL_CHECK(clSetKernelArg(kernel, 3, sizeof(cl_ulong), &offsetd));
+    CL_CHECK(clSetKernelArg(kernel, 4, sizeof(float),    &min));
+    CL_CHECK(clSetKernelArg(kernel, 5, sizeof(float),    &max));

    const int64_t n = ggml_nelements(dst);

@ -2492,7 +2489,7 @@ static void ggml_cl_norm(ggml_backend_t backend, const ggml_tensor * src0, const
    memcpy(&eps, dst->op_params, sizeof(float));

    const int ne00 = src0 ? src0->ne[0] : 0;
-    const int nb01 = src0 ? src0->nb[1] : 0;
+    const cl_ulong nb01 = src0 ? src0->nb[1] : 0;

    GGML_ASSERT(ggml_is_contiguous_1(src0));

@ -2500,14 +2497,14 @@ static void ggml_cl_norm(ggml_backend_t backend, const ggml_tensor * src0, const

    cl_kernel kernel = backend_ctx->kernel_norm;

-    CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem),     &extra0->data_device));
+    CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem),    &extra0->data_device));
    CL_CHECK(clSetKernelArg(kernel, 1, sizeof(cl_ulong),  &offset0));
-    CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem),     &extrad->data_device));
+    CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem),    &extrad->data_device));
    CL_CHECK(clSetKernelArg(kernel, 3, sizeof(cl_ulong),  &offsetd));
-    CL_CHECK(clSetKernelArg(kernel, 4, sizeof(int),        &ne00));
-    CL_CHECK(clSetKernelArg(kernel, 5, sizeof(int),        &nb01));
-    CL_CHECK(clSetKernelArg(kernel, 6, sizeof(float),      &eps));
-    CL_CHECK(clSetKernelArg(kernel, 7, sizeof(float)*nth,  NULL));
+    CL_CHECK(clSetKernelArg(kernel, 4, sizeof(int),       &ne00));
+    CL_CHECK(clSetKernelArg(kernel, 5, sizeof(cl_ulong),  &nb01));
+    CL_CHECK(clSetKernelArg(kernel, 6, sizeof(float),     &eps));
+    CL_CHECK(clSetKernelArg(kernel, 7, sizeof(float)*nth, NULL));

    const int64_t nrows = ggml_nrows(src0);

@ -2549,7 +2546,7 @@ static void ggml_cl_rms_norm(ggml_backend_t backend, const ggml_tensor * src0, c
    memcpy(&eps, dst->op_params, sizeof(float));

    const int ne00 = src0 ? src0->ne[0] : 0;
-    const int nb01 = src0 ? src0->nb[1] : 0;
+    const cl_ulong nb01 = src0 ? src0->nb[1] : 0;

    GGML_ASSERT(ne00 % 4 == 0);
    GGML_ASSERT(ggml_is_contiguous_1(src0));
@ -2573,13 +2570,13 @@ static void ggml_cl_rms_norm(ggml_backend_t backend, const ggml_tensor * src0, c
        sizeof(local_work_size), local_work_size,
        sizeof(size_t), &sgs, NULL));

-    CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem),         &extra0->data_device));
+    CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem),    &extra0->data_device));
    CL_CHECK(clSetKernelArg(kernel, 1, sizeof(cl_ulong),  &offset0));
-    CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem),         &extrad->data_device));
+    CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem),    &extrad->data_device));
    CL_CHECK(clSetKernelArg(kernel, 3, sizeof(cl_ulong),  &offsetd));
-    CL_CHECK(clSetKernelArg(kernel, 4, sizeof(int),            &ne00));
-    CL_CHECK(clSetKernelArg(kernel, 5, sizeof(int),            &nb01));
-    CL_CHECK(clSetKernelArg(kernel, 6, sizeof(float),          &eps));
+    CL_CHECK(clSetKernelArg(kernel, 4, sizeof(int),       &ne00));
+    CL_CHECK(clSetKernelArg(kernel, 5, sizeof(cl_ulong),  &nb01));
+    CL_CHECK(clSetKernelArg(kernel, 6, sizeof(float),     &eps));
    // This is local memory - the size depends on subgroup size.
    CL_CHECK(clSetKernelArg(kernel, 7, sizeof(float)*nth/sgs,  NULL));

@ -2625,20 +2622,20 @@ static void ggml_cl_mul_mat(ggml_backend_t backend, const ggml_tensor * src0, co
    const int  ne02 = src0 ? src0->ne[2] : 0;
    const int  ne03 = src0 ? src0->ne[3] : 0;

-    const int  nb00 = src0 ? src0->nb[0] : 0;
-    const int  nb01 = src0 ? src0->nb[1] : 0;
-    const int  nb02 = src0 ? src0->nb[2] : 0;
-    const int  nb03 = src0 ? src0->nb[3] : 0;
+    const cl_ulong nb00 = src0 ? src0->nb[0] : 0;
+    const cl_ulong nb01 = src0 ? src0->nb[1] : 0;
+    const cl_ulong nb02 = src0 ? src0->nb[2] : 0;
+    const cl_ulong nb03 = src0 ? src0->nb[3] : 0;

    const int  ne10 = src1 ? src1->ne[0] : 0;
    const int  ne11 = src1 ? src1->ne[1] : 0;
    const int  ne12 = src1 ? src1->ne[2] : 0;
    const int  ne13 = src1 ? src1->ne[3] : 0;

-    const int  nb10 = src1 ? src1->nb[0] : 0;
-    const int  nb11 = src1 ? src1->nb[1] : 0;
-    const int  nb12 = src1 ? src1->nb[2] : 0;
-    const int  nb13 = src1 ? src1->nb[3] : 0;
+    const cl_ulong nb10 = src1 ? src1->nb[0] : 0;
+    const cl_ulong nb11 = src1 ? src1->nb[1] : 0;
+    const cl_ulong nb12 = src1 ? src1->nb[2] : 0;
+    const cl_ulong nb13 = src1 ? src1->nb[3] : 0;

    const int  ne0 = dst ? dst->ne[0] : 0;
    const int  ne1 = dst ? dst->ne[1] : 0;
@ -2867,15 +2864,15 @@ static void ggml_cl_mul_mat(ggml_backend_t backend, const ggml_tensor * src0, co
            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(cl_ulong), &extra1->offset));
            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(cl_mem),   &extrad->data_device));
            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(cl_ulong), &extrad->offset));
-            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(int),    &ne00));
-            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(int),    &ne01));
-            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(int),    &ne02));
-            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(int),    &ne10));
-            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(int),    &ne12));
-            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(int),    &ne0));
-            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(int),    &ne1));
-            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(int),    &r2));
-            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(int),    &r3));
+            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(int),      &ne00));
+            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(int),      &ne01));
+            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(int),      &ne02));
+            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(int),      &ne10));
+            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(int),      &ne12));
+            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(int),      &ne0));
+            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(int),      &ne1));
+            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(int),      &r2));
+            CL_CHECK(clSetKernelArg(kernel,  k_arg++, sizeof(int),      &r3));
        } else {
            region.origin = extrad->offset; // Specify the starting offset (in bytes)
            region.size = M * N * sizeof(float); // Specify the size of the sub-buffer
@ -2993,21 +2990,21 @@ static void ggml_cl_mul_mat(ggml_backend_t backend, const ggml_tensor * src0, co
                    GGML_ASSERT(false && "TODO: Unknown GPU");
                }

-                CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem), &extra0_q4_0->q));
-                CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_mem), &extra0_q4_0->d));
-                CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem), &extra1->data_device));
-                CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong),  &offset1));
-                CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem), &extrad->data_device));
-                CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong),  &offsetd));
-                CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),    &ne00));
-                CL_CHECK(clSetKernelArg(kernel,  7, sizeof(int),    &ne01));
-                CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),    &ne02));
-                CL_CHECK(clSetKernelArg(kernel,  9, sizeof(int),    &ne10));
-                CL_CHECK(clSetKernelArg(kernel, 10, sizeof(int),    &ne12));
-                CL_CHECK(clSetKernelArg(kernel, 11, sizeof(int),    &ne0));
-                CL_CHECK(clSetKernelArg(kernel, 12, sizeof(int),    &ne1));
-                CL_CHECK(clSetKernelArg(kernel, 13, sizeof(int),    &r2));
-                CL_CHECK(clSetKernelArg(kernel, 14, sizeof(int),    &r3));
+                CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem),   &extra0_q4_0->q));
+                CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_mem),   &extra0_q4_0->d));
+                CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem),   &extra1->data_device));
+                CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong), &offset1));
+                CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem),   &extrad->data_device));
+                CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong), &offsetd));
+                CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),      &ne00));
+                CL_CHECK(clSetKernelArg(kernel,  7, sizeof(int),      &ne01));
+                CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),      &ne02));
+                CL_CHECK(clSetKernelArg(kernel,  9, sizeof(int),      &ne10));
+                CL_CHECK(clSetKernelArg(kernel, 10, sizeof(int),      &ne12));
+                CL_CHECK(clSetKernelArg(kernel, 11, sizeof(int),      &ne0));
+                CL_CHECK(clSetKernelArg(kernel, 12, sizeof(int),      &ne1));
+                CL_CHECK(clSetKernelArg(kernel, 13, sizeof(int),      &r2));
+                CL_CHECK(clSetKernelArg(kernel, 14, sizeof(int),      &r3));
                break;
            default:
                break;
@ -3059,31 +3056,30 @@ static void ggml_cl_mul_mat(ggml_backend_t backend, const ggml_tensor * src0, co
                GGML_ASSERT(false && "TODO: Unknown GPU");
            }

-            CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem), &extra0->data_device));
-            CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_ulong),  &offset0));
-            CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem), &extra1->data_device));
-            CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong),  &offset1));
-            CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem), &extrad->data_device));
-            CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong),  &offsetd));
-            CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),    &ne00));
-            CL_CHECK(clSetKernelArg(kernel,  7, sizeof(int),    &ne01));
-            CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),    &ne02));
-            CL_CHECK(clSetKernelArg(kernel,  9, sizeof(int),    &nb00));
-            CL_CHECK(clSetKernelArg(kernel, 10, sizeof(int),    &nb01));
-            CL_CHECK(clSetKernelArg(kernel, 11, sizeof(int),    &nb02));
-            CL_CHECK(clSetKernelArg(kernel, 12, sizeof(int),    &nb03));
-            CL_CHECK(clSetKernelArg(kernel, 13, sizeof(int),    &ne10));
-            CL_CHECK(clSetKernelArg(kernel, 14, sizeof(int),    &ne11));
-            CL_CHECK(clSetKernelArg(kernel, 15, sizeof(int),    &ne12));
-            CL_CHECK(clSetKernelArg(kernel, 16, sizeof(int),    &nb10));
-            CL_CHECK(clSetKernelArg(kernel, 17, sizeof(int),    &nb11));
-            CL_CHECK(clSetKernelArg(kernel, 18, sizeof(int),    &nb12));
-            CL_CHECK(clSetKernelArg(kernel, 19, sizeof(int),    &nb13));
-            CL_CHECK(clSetKernelArg(kernel, 20, sizeof(int),    &ne0));
-            CL_CHECK(clSetKernelArg(kernel, 21, sizeof(int),    &ne1));
-            CL_CHECK(clSetKernelArg(kernel, 22, sizeof(int),    &r2));
-            CL_CHECK(clSetKernelArg(kernel, 23, sizeof(int),    &r3));
-
+            CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem),   &extra0->data_device));
+            CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_ulong), &offset0));
+            CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem),   &extra1->data_device));
+            CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong), &offset1));
+            CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem),   &extrad->data_device));
+            CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong), &offsetd));
+            CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),      &ne00));
+            CL_CHECK(clSetKernelArg(kernel,  7, sizeof(int),      &ne01));
+            CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),      &ne02));
+            CL_CHECK(clSetKernelArg(kernel,  9, sizeof(cl_ulong), &nb00));
+            CL_CHECK(clSetKernelArg(kernel, 10, sizeof(cl_ulong), &nb01));
+            CL_CHECK(clSetKernelArg(kernel, 11, sizeof(cl_ulong), &nb02));
+            CL_CHECK(clSetKernelArg(kernel, 12, sizeof(cl_ulong), &nb03));
+            CL_CHECK(clSetKernelArg(kernel, 13, sizeof(int),      &ne10));
+            CL_CHECK(clSetKernelArg(kernel, 14, sizeof(int),      &ne11));
+            CL_CHECK(clSetKernelArg(kernel, 15, sizeof(int),      &ne12));
+            CL_CHECK(clSetKernelArg(kernel, 16, sizeof(cl_ulong), &nb10));
+            CL_CHECK(clSetKernelArg(kernel, 17, sizeof(cl_ulong), &nb11));
+            CL_CHECK(clSetKernelArg(kernel, 18, sizeof(cl_ulong), &nb12));
+            CL_CHECK(clSetKernelArg(kernel, 19, sizeof(cl_ulong), &nb13));
+            CL_CHECK(clSetKernelArg(kernel, 20, sizeof(int),      &ne0));
+            CL_CHECK(clSetKernelArg(kernel, 21, sizeof(int),      &ne1));
+            CL_CHECK(clSetKernelArg(kernel, 22, sizeof(int),      &r2));
+            CL_CHECK(clSetKernelArg(kernel, 23, sizeof(int),      &r3));
            break;
        case GGML_TYPE_F16:
            //GGML_ASSERT(ne02 == ne12);
@ -3112,30 +3108,30 @@ static void ggml_cl_mul_mat(ggml_backend_t backend, const ggml_tensor * src0, co
                nrows = 4;
            }

-            CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem), &extra0->data_device));
-            CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_ulong),  &offset0));
-            CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem), &extra1->data_device));
-            CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong),  &offset1));
-            CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem), &extrad->data_device));
-            CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong),  &offsetd));
-            CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),    &ne00));
-            CL_CHECK(clSetKernelArg(kernel,  7, sizeof(int),    &ne01));
-            CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),    &ne02));
-            CL_CHECK(clSetKernelArg(kernel,  9, sizeof(int),    &nb00));
-            CL_CHECK(clSetKernelArg(kernel, 10, sizeof(int),    &nb01));
-            CL_CHECK(clSetKernelArg(kernel, 11, sizeof(int),    &nb02));
-            CL_CHECK(clSetKernelArg(kernel, 12, sizeof(int),    &nb03));
-            CL_CHECK(clSetKernelArg(kernel, 13, sizeof(int),    &ne10));
-            CL_CHECK(clSetKernelArg(kernel, 14, sizeof(int),    &ne11));
-            CL_CHECK(clSetKernelArg(kernel, 15, sizeof(int),    &ne12));
-            CL_CHECK(clSetKernelArg(kernel, 16, sizeof(int),    &nb10));
-            CL_CHECK(clSetKernelArg(kernel, 17, sizeof(int),    &nb11));
-            CL_CHECK(clSetKernelArg(kernel, 18, sizeof(int),    &nb12));
-            CL_CHECK(clSetKernelArg(kernel, 19, sizeof(int),    &nb13));
-            CL_CHECK(clSetKernelArg(kernel, 20, sizeof(int),    &ne0));
-            CL_CHECK(clSetKernelArg(kernel, 21, sizeof(int),    &ne1));
-            CL_CHECK(clSetKernelArg(kernel, 22, sizeof(int),    &r2));
-            CL_CHECK(clSetKernelArg(kernel, 23, sizeof(int),    &r3));
+            CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem),   &extra0->data_device));
+            CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_ulong), &offset0));
+            CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem),   &extra1->data_device));
+            CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong), &offset1));
+            CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem),   &extrad->data_device));
+            CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong), &offsetd));
+            CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),      &ne00));
+            CL_CHECK(clSetKernelArg(kernel,  7, sizeof(int),      &ne01));
+            CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),      &ne02));
+            CL_CHECK(clSetKernelArg(kernel,  9, sizeof(cl_ulong), &nb00));
+            CL_CHECK(clSetKernelArg(kernel, 10, sizeof(cl_ulong), &nb01));
+            CL_CHECK(clSetKernelArg(kernel, 11, sizeof(cl_ulong), &nb02));
+            CL_CHECK(clSetKernelArg(kernel, 12, sizeof(cl_ulong), &nb03));
+            CL_CHECK(clSetKernelArg(kernel, 13, sizeof(int),      &ne10));
+            CL_CHECK(clSetKernelArg(kernel, 14, sizeof(int),      &ne11));
+            CL_CHECK(clSetKernelArg(kernel, 15, sizeof(int),      &ne12));
+            CL_CHECK(clSetKernelArg(kernel, 16, sizeof(cl_ulong), &nb10));
+            CL_CHECK(clSetKernelArg(kernel, 17, sizeof(cl_ulong), &nb11));
+            CL_CHECK(clSetKernelArg(kernel, 18, sizeof(cl_ulong), &nb12));
+            CL_CHECK(clSetKernelArg(kernel, 19, sizeof(cl_ulong), &nb13));
+            CL_CHECK(clSetKernelArg(kernel, 20, sizeof(int),      &ne0));
+            CL_CHECK(clSetKernelArg(kernel, 21, sizeof(int),      &ne1));
+            CL_CHECK(clSetKernelArg(kernel, 22, sizeof(int),      &r2));
+            CL_CHECK(clSetKernelArg(kernel, 23, sizeof(int),      &r3));
            break;
        case GGML_TYPE_Q4_0:
            // This should have been satisfied.
@ -3159,21 +3155,21 @@ static void ggml_cl_mul_mat(ggml_backend_t backend, const ggml_tensor * src0, co
                GGML_ASSERT(false && "TODO: Unknown GPU");
            }

-            CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem), &extra0_q4_0->q));
-            CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_mem), &extra0_q4_0->d));
-            CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem), &extra1->data_device));
-            CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong),  &offset1));
-            CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem), &extrad->data_device));
-            CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong),  &offsetd));
-            CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),    &ne00));
-            CL_CHECK(clSetKernelArg(kernel,  7, sizeof(int),    &ne01));
-            CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),    &ne02));
-            CL_CHECK(clSetKernelArg(kernel,  9, sizeof(int),    &ne10));
-            CL_CHECK(clSetKernelArg(kernel, 10, sizeof(int),    &ne12));
-            CL_CHECK(clSetKernelArg(kernel, 11, sizeof(int),    &ne0));
-            CL_CHECK(clSetKernelArg(kernel, 12, sizeof(int),    &ne1));
-            CL_CHECK(clSetKernelArg(kernel, 13, sizeof(int),    &r2));
-            CL_CHECK(clSetKernelArg(kernel, 14, sizeof(int),    &r3));
+            CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem),   &extra0_q4_0->q));
+            CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_mem),   &extra0_q4_0->d));
+            CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem),   &extra1->data_device));
+            CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong), &offset1));
+            CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem),   &extrad->data_device));
+            CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong), &offsetd));
+            CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),      &ne00));
+            CL_CHECK(clSetKernelArg(kernel,  7, sizeof(int),      &ne01));
+            CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),      &ne02));
+            CL_CHECK(clSetKernelArg(kernel,  9, sizeof(int),      &ne10));
+            CL_CHECK(clSetKernelArg(kernel, 10, sizeof(int),      &ne12));
+            CL_CHECK(clSetKernelArg(kernel, 11, sizeof(int),      &ne0));
+            CL_CHECK(clSetKernelArg(kernel, 12, sizeof(int),      &ne1));
+            CL_CHECK(clSetKernelArg(kernel, 13, sizeof(int),      &r2));
+            CL_CHECK(clSetKernelArg(kernel, 14, sizeof(int),      &r3));
 #else // GGML_OPENCL_SOA_Q
            if (backend_ctx->gpu_family == INTEL) {
                // Use 1D local size. Each workgroup is a SIMD group. Each SIMD
@ -3195,21 +3191,21 @@ static void ggml_cl_mul_mat(ggml_backend_t backend, const ggml_tensor * src0, co
                GGML_ASSERT(false && "TODO: Unknown GPU");
            }

-            CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem), &extra0->data_device));
-            CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_ulong),  &offset0));
-            CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem), &extra1->data_device));
-            CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong),  &offset1));
-            CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem), &extrad->data_device));
-            CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong),  &offsetd));
-            CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),    &ne00));
-            CL_CHECK(clSetKernelArg(kernel,  7, sizeof(int),    &ne01));
-            CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),    &ne02));
-            CL_CHECK(clSetKernelArg(kernel,  9, sizeof(int),    &ne10));
-            CL_CHECK(clSetKernelArg(kernel, 10, sizeof(int),    &ne12));
-            CL_CHECK(clSetKernelArg(kernel, 11, sizeof(int),    &ne0));
-            CL_CHECK(clSetKernelArg(kernel, 12, sizeof(int),    &ne1));
-            CL_CHECK(clSetKernelArg(kernel, 13, sizeof(int),    &r2));
-            CL_CHECK(clSetKernelArg(kernel, 14, sizeof(int),    &r3));
+            CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem),   &extra0->data_device));
+            CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_ulong), &offset0));
+            CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem),   &extra1->data_device));
+            CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong), &offset1));
+            CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem),   &extrad->data_device));
+            CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong), &offsetd));
+            CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),      &ne00));
+            CL_CHECK(clSetKernelArg(kernel,  7, sizeof(int),      &ne01));
+            CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),      &ne02));
+            CL_CHECK(clSetKernelArg(kernel,  9, sizeof(int),      &ne10));
+            CL_CHECK(clSetKernelArg(kernel, 10, sizeof(int),      &ne12));
+            CL_CHECK(clSetKernelArg(kernel, 11, sizeof(int),      &ne0));
+            CL_CHECK(clSetKernelArg(kernel, 12, sizeof(int),      &ne1));
+            CL_CHECK(clSetKernelArg(kernel, 13, sizeof(int),      &r2));
+            CL_CHECK(clSetKernelArg(kernel, 14, sizeof(int),      &r3));
 #endif // GGML_OPENCL_SOA_Q
            break;
        case GGML_TYPE_Q4_1:
@ -3231,21 +3227,21 @@ static void ggml_cl_mul_mat(ggml_backend_t backend, const ggml_tensor * src0, co
                GGML_ASSERT(false && "TODO: Unknown GPU");
            }

-            CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem), &extra0->data_device));
-            CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_ulong),  &offset0));
-            CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem), &extra1->data_device));
-            CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong),  &offset1));
-            CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem), &extrad->data_device));
-            CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong),  &offsetd));
-            CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),    &ne00));
-            CL_CHECK(clSetKernelArg(kernel,  7, sizeof(int),    &ne01));
-            CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),    &ne02));
-            CL_CHECK(clSetKernelArg(kernel,  9, sizeof(int),    &ne10));
-            CL_CHECK(clSetKernelArg(kernel, 10, sizeof(int),    &ne12));
-            CL_CHECK(clSetKernelArg(kernel, 11, sizeof(int),    &ne0));
-            CL_CHECK(clSetKernelArg(kernel, 12, sizeof(int),    &ne1));
-            CL_CHECK(clSetKernelArg(kernel, 13, sizeof(int),    &r2));
-            CL_CHECK(clSetKernelArg(kernel, 14, sizeof(int),    &r3));
+            CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem),   &extra0->data_device));
+            CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_ulong), &offset0));
+            CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem),   &extra1->data_device));
+            CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong), &offset1));
+            CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem),   &extrad->data_device));
+            CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong), &offsetd));
+            CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),      &ne00));
+            CL_CHECK(clSetKernelArg(kernel,  7, sizeof(int),      &ne01));
+            CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),      &ne02));
+            CL_CHECK(clSetKernelArg(kernel,  9, sizeof(int),      &ne10));
+            CL_CHECK(clSetKernelArg(kernel, 10, sizeof(int),      &ne12));
+            CL_CHECK(clSetKernelArg(kernel, 11, sizeof(int),      &ne0));
+            CL_CHECK(clSetKernelArg(kernel, 12, sizeof(int),      &ne1));
+            CL_CHECK(clSetKernelArg(kernel, 13, sizeof(int),      &r2));
+            CL_CHECK(clSetKernelArg(kernel, 14, sizeof(int),      &r3));
            break;
        default:
            GGML_ASSERT(false && "not implemented");
@ -3333,13 +3329,11 @@ static void ggml_cl_scale(ggml_backend_t backend, const ggml_tensor * src0, cons

    cl_kernel kernel = backend_ctx->kernel_scale;

-    CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem), &extra0->data_device));
-    CL_CHECK(clSetKernelArg(kernel, 1, sizeof(cl_ulong),  &offset0));
-
-    CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem), &extrad->data_device));
-    CL_CHECK(clSetKernelArg(kernel, 3, sizeof(cl_ulong),  &offsetd));
-
-    CL_CHECK(clSetKernelArg(kernel, 4, sizeof(float), &scale));
+    CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem),   &extra0->data_device));
+    CL_CHECK(clSetKernelArg(kernel, 1, sizeof(cl_ulong), &offset0));
+    CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem),   &extrad->data_device));
+    CL_CHECK(clSetKernelArg(kernel, 3, sizeof(cl_ulong), &offsetd));
+    CL_CHECK(clSetKernelArg(kernel, 4, sizeof(float),    &scale));

    int n = ggml_nelements(dst)/4;

@ -3372,20 +3366,20 @@ static void ggml_cl_cpy(ggml_backend_t backend, const ggml_tensor * src0, const
    const int ne02 = src0 ? src0->ne[2] : 0;
    const int ne03 = src0 ? src0->ne[3] : 0;

-    const int nb00 = src0 ? src0->nb[0] : 0;
-    const int nb01 = src0 ? src0->nb[1] : 0;
-    const int nb02 = src0 ? src0->nb[2] : 0;
-    const int nb03 = src0 ? src0->nb[3] : 0;
+    const cl_ulong nb00 = src0 ? src0->nb[0] : 0;
+    const cl_ulong nb01 = src0 ? src0->nb[1] : 0;
+    const cl_ulong nb02 = src0 ? src0->nb[2] : 0;
+    const cl_ulong nb03 = src0 ? src0->nb[3] : 0;

    const int ne10 = src1 ? src1->ne[0] : 0;
    const int ne11 = src1 ? src1->ne[1] : 0;
    const int ne12 = src1 ? src1->ne[2] : 0;
    const int ne13 = src1 ? src1->ne[3] : 0;

-    const int nb10 = src1 ? src1->nb[0] : 0;
-    const int nb11 = src1 ? src1->nb[1] : 0;
-    const int nb12 = src1 ? src1->nb[2] : 0;
-    const int nb13 = src1 ? src1->nb[3] : 0;
+    const cl_ulong nb10 = src1 ? src1->nb[0] : 0;
+    const cl_ulong nb11 = src1 ? src1->nb[1] : 0;
+    const cl_ulong nb12 = src1 ? src1->nb[2] : 0;
+    const cl_ulong nb13 = src1 ? src1->nb[3] : 0;

    const enum ggml_type src0t = src0 ? src0->type : GGML_TYPE_COUNT;
    const enum ggml_type src1t = src1 ? src1->type : GGML_TYPE_COUNT;
@ -3430,26 +3424,26 @@ static void ggml_cl_cpy(ggml_backend_t backend, const ggml_tensor * src0, const
            GGML_ASSERT(false && "not implemented");
    }

-    CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem), &extra0->data_device));
-    CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_ulong),  &offset0));
-    CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem), &extra1->data_device));
-    CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong),  &offset1));
-    CL_CHECK(clSetKernelArg(kernel,  4, sizeof(int),    &ne00));
-    CL_CHECK(clSetKernelArg(kernel,  5, sizeof(int),    &ne01));
-    CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),    &ne02));
-    CL_CHECK(clSetKernelArg(kernel,  7, sizeof(int),    &ne03));
-    CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),    &nb00));
-    CL_CHECK(clSetKernelArg(kernel,  9, sizeof(int),    &nb01));
-    CL_CHECK(clSetKernelArg(kernel, 10, sizeof(int),    &nb02));
-    CL_CHECK(clSetKernelArg(kernel, 11, sizeof(int),    &nb03));
-    CL_CHECK(clSetKernelArg(kernel, 12, sizeof(int),    &ne10));
-    CL_CHECK(clSetKernelArg(kernel, 13, sizeof(int),    &ne11));
-    CL_CHECK(clSetKernelArg(kernel, 14, sizeof(int),    &ne12));
-    CL_CHECK(clSetKernelArg(kernel, 15, sizeof(int),    &ne13));
-    CL_CHECK(clSetKernelArg(kernel, 16, sizeof(int),    &nb10));
-    CL_CHECK(clSetKernelArg(kernel, 17, sizeof(int),    &nb11));
-    CL_CHECK(clSetKernelArg(kernel, 18, sizeof(int),    &nb12));
-    CL_CHECK(clSetKernelArg(kernel, 19, sizeof(int),    &nb13));
+    CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem),   &extra0->data_device));
+    CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_ulong), &offset0));
+    CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem),   &extra1->data_device));
+    CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong), &offset1));
+    CL_CHECK(clSetKernelArg(kernel,  4, sizeof(int),      &ne00));
+    CL_CHECK(clSetKernelArg(kernel,  5, sizeof(int),      &ne01));
+    CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),      &ne02));
+    CL_CHECK(clSetKernelArg(kernel,  7, sizeof(int),      &ne03));
+    CL_CHECK(clSetKernelArg(kernel,  8, sizeof(cl_ulong), &nb00));
+    CL_CHECK(clSetKernelArg(kernel,  9, sizeof(cl_ulong), &nb01));
+    CL_CHECK(clSetKernelArg(kernel, 10, sizeof(cl_ulong), &nb02));
+    CL_CHECK(clSetKernelArg(kernel, 11, sizeof(cl_ulong), &nb03));
+    CL_CHECK(clSetKernelArg(kernel, 12, sizeof(int),      &ne10));
+    CL_CHECK(clSetKernelArg(kernel, 13, sizeof(int),      &ne11));
+    CL_CHECK(clSetKernelArg(kernel, 14, sizeof(int),      &ne12));
+    CL_CHECK(clSetKernelArg(kernel, 15, sizeof(int),      &ne13));
+    CL_CHECK(clSetKernelArg(kernel, 16, sizeof(cl_ulong), &nb10));
+    CL_CHECK(clSetKernelArg(kernel, 17, sizeof(cl_ulong), &nb11));
+    CL_CHECK(clSetKernelArg(kernel, 18, sizeof(cl_ulong), &nb12));
+    CL_CHECK(clSetKernelArg(kernel, 19, sizeof(cl_ulong), &nb13));

    const int nth = MIN(64, ne00);

@ -3500,13 +3494,13 @@ static void ggml_cl_diag_mask_inf(ggml_backend_t backend, const ggml_tensor * sr
    if (ne00%8 == 0) {
        kernel = backend_ctx->kernel_diag_mask_inf_8;

-        CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem), &extra0->data_device));
-        CL_CHECK(clSetKernelArg(kernel, 1, sizeof(cl_ulong),  &offset0));
-        CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem), &extrad->data_device));
-        CL_CHECK(clSetKernelArg(kernel, 3, sizeof(cl_ulong),  &offsetd));
-        CL_CHECK(clSetKernelArg(kernel, 4, sizeof(int),    &ne00));
-        CL_CHECK(clSetKernelArg(kernel, 5, sizeof(int),    &ne01));
-        CL_CHECK(clSetKernelArg(kernel, 6, sizeof(int),    &n_past));
+        CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem),   &extra0->data_device));
+        CL_CHECK(clSetKernelArg(kernel, 1, sizeof(cl_ulong), &offset0));
+        CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem),   &extrad->data_device));
+        CL_CHECK(clSetKernelArg(kernel, 3, sizeof(cl_ulong), &offsetd));
+        CL_CHECK(clSetKernelArg(kernel, 4, sizeof(int),      &ne00));
+        CL_CHECK(clSetKernelArg(kernel, 5, sizeof(int),      &ne01));
+        CL_CHECK(clSetKernelArg(kernel, 6, sizeof(int),      &n_past));

        size_t global_work_size[] = {(size_t)ne00*ne01*ne02/8, 1, 1};
        size_t local_work_size[] = {64, 1, 1};
@ -3523,13 +3517,13 @@ static void ggml_cl_diag_mask_inf(ggml_backend_t backend, const ggml_tensor * sr
    } else {
        kernel = backend_ctx->kernel_diag_mask_inf;

-        CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem), &extra0->data_device));
-        CL_CHECK(clSetKernelArg(kernel, 1, sizeof(cl_ulong),  &offset0));
-        CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem), &extrad->data_device));
-        CL_CHECK(clSetKernelArg(kernel, 3, sizeof(cl_ulong),  &offsetd));
-        CL_CHECK(clSetKernelArg(kernel, 4, sizeof(int),    &ne00));
-        CL_CHECK(clSetKernelArg(kernel, 5, sizeof(int),    &ne01));
-        CL_CHECK(clSetKernelArg(kernel, 6, sizeof(int),    &n_past));
+        CL_CHECK(clSetKernelArg(kernel, 0, sizeof(cl_mem),   &extra0->data_device));
+        CL_CHECK(clSetKernelArg(kernel, 1, sizeof(cl_ulong), &offset0));
+        CL_CHECK(clSetKernelArg(kernel, 2, sizeof(cl_mem),   &extrad->data_device));
+        CL_CHECK(clSetKernelArg(kernel, 3, sizeof(cl_ulong), &offsetd));
+        CL_CHECK(clSetKernelArg(kernel, 4, sizeof(int),      &ne00));
+        CL_CHECK(clSetKernelArg(kernel, 5, sizeof(int),      &ne01));
+        CL_CHECK(clSetKernelArg(kernel, 6, sizeof(int),      &n_past));

        size_t global_work_size[] = {(size_t)ne00, (size_t)ne01, (size_t)ne02};
        size_t local_work_size[] = {64, 1, 1};
@ -3613,20 +3607,20 @@ static void ggml_cl_soft_max(ggml_backend_t backend, const ggml_tensor * src0, c
        kernel = backend_ctx->kernel_soft_max;
    }

-    CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem), &extra0->data_device));
-    CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_ulong),  &offset0));
-    CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem), extra1 ? &extra1->data_device : &extra0->data_device));
-    CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong),  &offset1));
-    CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem), &extrad->data_device));
-    CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong),  &offsetd));
-    CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),    &ne00));
-    CL_CHECK(clSetKernelArg(kernel,  7, sizeof(int),    &ne01));
-    CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),    &ne02));
-    CL_CHECK(clSetKernelArg(kernel,  9, sizeof(float),  &scale));
-    CL_CHECK(clSetKernelArg(kernel, 10, sizeof(float),  &max_bias));
-    CL_CHECK(clSetKernelArg(kernel, 11, sizeof(float),  &m0));
-    CL_CHECK(clSetKernelArg(kernel, 12, sizeof(float),  &m1));
-    CL_CHECK(clSetKernelArg(kernel, 13, sizeof(int),    &n_head_log2));
+    CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem),   &extra0->data_device));
+    CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_ulong), &offset0));
+    CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem),   extra1 ? &extra1->data_device : &extra0->data_device));
+    CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong), &offset1));
+    CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem),   &extrad->data_device));
+    CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong), &offsetd));
+    CL_CHECK(clSetKernelArg(kernel,  6, sizeof(int),      &ne00));
+    CL_CHECK(clSetKernelArg(kernel,  7, sizeof(int),      &ne01));
+    CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),      &ne02));
+    CL_CHECK(clSetKernelArg(kernel,  9, sizeof(float),    &scale));
+    CL_CHECK(clSetKernelArg(kernel, 10, sizeof(float),    &max_bias));
+    CL_CHECK(clSetKernelArg(kernel, 11, sizeof(float),    &m0));
+    CL_CHECK(clSetKernelArg(kernel, 12, sizeof(float),    &m1));
+    CL_CHECK(clSetKernelArg(kernel, 13, sizeof(int),      &n_head_log2));

    size_t global_work_size[] = {(size_t)ne01*nth, (size_t)ne02, (size_t)ne03};
    size_t local_work_size[] = {(size_t)nth, 1, 1};
@ -3742,39 +3736,39 @@ static void ggml_cl_rope(ggml_backend_t backend, const ggml_tensor * src0, const
        };
    }

-    CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem), &extra0->data_device));
-    CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_ulong),  &offset0));
-    CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem), &extra1->data_device));
-    CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong),  &offset1));
-    CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem), extra2 ? &extra2->data_device : &extra0->data_device));
-    CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong),  &offset2));
-    CL_CHECK(clSetKernelArg(kernel,  6, sizeof(cl_mem), &extrad->data_device));
-    CL_CHECK(clSetKernelArg(kernel,  7, sizeof(cl_ulong),  &offsetd));
-    CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),    &ne00));
-    CL_CHECK(clSetKernelArg(kernel,  9, sizeof(int),    &ne01));
-    CL_CHECK(clSetKernelArg(kernel, 10, sizeof(int),    &ne02));
-    CL_CHECK(clSetKernelArg(kernel, 11, sizeof(int),    &ne03));
-    CL_CHECK(clSetKernelArg(kernel, 12, sizeof(int),    &nb00));
-    CL_CHECK(clSetKernelArg(kernel, 13, sizeof(int),    &nb01));
-    CL_CHECK(clSetKernelArg(kernel, 14, sizeof(int),    &nb02));
-    CL_CHECK(clSetKernelArg(kernel, 15, sizeof(int),    &nb03));
-    CL_CHECK(clSetKernelArg(kernel, 16, sizeof(int),    &ne0));
-    CL_CHECK(clSetKernelArg(kernel, 17, sizeof(int),    &ne1));
-    CL_CHECK(clSetKernelArg(kernel, 18, sizeof(int),    &ne2));
-    CL_CHECK(clSetKernelArg(kernel, 19, sizeof(int),    &ne3));
-    CL_CHECK(clSetKernelArg(kernel, 20, sizeof(int),    &nb0));
-    CL_CHECK(clSetKernelArg(kernel, 21, sizeof(int),    &nb1));
-    CL_CHECK(clSetKernelArg(kernel, 22, sizeof(int),    &nb2));
-    CL_CHECK(clSetKernelArg(kernel, 23, sizeof(int),    &nb3));
-    CL_CHECK(clSetKernelArg(kernel, 24, sizeof(int),    &n_past));
-    CL_CHECK(clSetKernelArg(kernel, 25, sizeof(int),    &n_dims));
-    CL_CHECK(clSetKernelArg(kernel, 26, sizeof(int),    &n_ctx_orig));
-    CL_CHECK(clSetKernelArg(kernel, 27, sizeof(float),  &freq_base));
-    CL_CHECK(clSetKernelArg(kernel, 28, sizeof(float),  &freq_scale));
-    CL_CHECK(clSetKernelArg(kernel, 29, sizeof(float),  &ext_factor));
-    CL_CHECK(clSetKernelArg(kernel, 30, sizeof(float),  &attn_factor));
-    CL_CHECK(clSetKernelArg(kernel, 31, sizeof(float),  &beta_fast));
-    CL_CHECK(clSetKernelArg(kernel, 32, sizeof(float),  &beta_slow));
+    CL_CHECK(clSetKernelArg(kernel,  0, sizeof(cl_mem),   &extra0->data_device));
+    CL_CHECK(clSetKernelArg(kernel,  1, sizeof(cl_ulong), &offset0));
+    CL_CHECK(clSetKernelArg(kernel,  2, sizeof(cl_mem),   &extra1->data_device));
+    CL_CHECK(clSetKernelArg(kernel,  3, sizeof(cl_ulong), &offset1));
+    CL_CHECK(clSetKernelArg(kernel,  4, sizeof(cl_mem),   extra2 ? &extra2->data_device : &extra0->data_device));
+    CL_CHECK(clSetKernelArg(kernel,  5, sizeof(cl_ulong), &offset2));
+    CL_CHECK(clSetKernelArg(kernel,  6, sizeof(cl_mem),   &extrad->data_device));
+    CL_CHECK(clSetKernelArg(kernel,  7, sizeof(cl_ulong), &offsetd));
+    CL_CHECK(clSetKernelArg(kernel,  8, sizeof(int),      &ne00));
+    CL_CHECK(clSetKernelArg(kernel,  9, sizeof(int),      &ne01));
+    CL_CHECK(clSetKernelArg(kernel, 10, sizeof(int),      &ne02));
+    CL_CHECK(clSetKernelArg(kernel, 11, sizeof(int),      &ne03));
+    CL_CHECK(clSetKernelArg(kernel, 12, sizeof(cl_ulong), &nb00));
+    CL_CHECK(clSetKernelArg(kernel, 13, sizeof(cl_ulong), &nb01));
+    CL_CHECK(clSetKernelArg(kernel, 14, sizeof(cl_ulong), &nb02));
+    CL_CHECK(clSetKernelArg(kernel, 15, sizeof(cl_ulong), &nb03));
+    CL_CHECK(clSetKernelArg(kernel, 16, sizeof(int),      &ne0));
+    CL_CHECK(clSetKernelArg(kernel, 17, sizeof(int),      &ne1));
+    CL_CHECK(clSetKernelArg(kernel, 18, sizeof(int),      &ne2));
+    CL_CHECK(clSetKernelArg(kernel, 19, sizeof(int),      &ne3));
+    CL_CHECK(clSetKernelArg(kernel, 20, sizeof(cl_ulong), &nb0));
+    CL_CHECK(clSetKernelArg(kernel, 21, sizeof(cl_ulong), &nb1));
+    CL_CHECK(clSetKernelArg(kernel, 22, sizeof(cl_ulong), &nb2));
+    CL_CHECK(clSetKernelArg(kernel, 23, sizeof(cl_ulong), &nb3));
+    CL_CHECK(clSetKernelArg(kernel, 24, sizeof(int),      &n_past));
+    CL_CHECK(clSetKernelArg(kernel, 25, sizeof(int),      &n_dims));
+    CL_CHECK(clSetKernelArg(kernel, 26, sizeof(int),      &n_ctx_orig));
+    CL_CHECK(clSetKernelArg(kernel, 27, sizeof(float),    &freq_base));
+    CL_CHECK(clSetKernelArg(kernel, 28, sizeof(float),    &freq_scale));
+    CL_CHECK(clSetKernelArg(kernel, 29, sizeof(float),    &ext_factor));
+    CL_CHECK(clSetKernelArg(kernel, 30, sizeof(float),    &attn_factor));
+    CL_CHECK(clSetKernelArg(kernel, 31, sizeof(float),    &beta_fast));
+    CL_CHECK(clSetKernelArg(kernel, 32, sizeof(float),    &beta_slow));

    size_t global_work_size[] = {(size_t)ne01*nth, (size_t)ne02, (size_t)ne03};
    size_t local_work_size[] = {(size_t)nth, 1, 1};
--- a/ggml/src/ggml-opencl2/kernels/ggml-opencl2.cl
+++ b/ggml/src/ggml-opencl2/kernels/ggml-opencl2.cl
@ -298,7 +298,7 @@ kernel void kernel_add_row(
        ulong  offset1,
        global float4 * dst,
        ulong  offsetd,
-        int nb
+        int ne
 ) {
    src0 = (global float4*)((global char*)src0 + offset0);
    src1 = (global float4*)((global char*)src1 + offset1);
@ -306,7 +306,7 @@ kernel void kernel_add_row(

    // This performs better than using %.
    uint gid = get_global_id(0);
-    uint idx1 = gid - (gid/nb)*nb; // get_global_id(0) % nb
+    uint idx1 = gid - (gid/ne)*ne; // get_global_id(0) % ne
    dst[gid] = src0[gid] + src1[idx1];
 }

@ -324,26 +324,26 @@ kernel void kernel_mul(
        int ne01,
        int ne02,
        int ne03,
-        int nb00,
-        int nb01,
-        int nb02,
-        int nb03,
+        ulong nb00,
+        ulong nb01,
+        ulong nb02,
+        ulong nb03,
        int ne10,
        int ne11,
        int ne12,
        int ne13,
-        int nb10,
-        int nb11,
-        int nb12,
-        int nb13,
+        ulong nb10,
+        ulong nb11,
+        ulong nb12,
+        ulong nb13,
        int ne0,
        int ne1,
        int ne2,
        int ne3,
-        int nb0,
-        int nb1,
-        int nb2,
-        int nb3
+        ulong nb0,
+        ulong nb1,
+        ulong nb2,
+        ulong nb3
 ) {
    src0 = src0 + offset0;
    src1 = src1 + offset1;
@ -376,7 +376,7 @@ kernel void kernel_mul_row(
        ulong offset1,
        global float4 * dst,
        ulong offsetd,
-        int nb
+        int ne
 ) {
    src0 = (global float4*)((global char*)src0 + offset0);
    src1 = (global float4*)((global char*)src1 + offset1);
@ -384,7 +384,7 @@ kernel void kernel_mul_row(

    // This performs better than using %.
    uint gid = get_global_id(0);
-    uint idx1 = gid - (gid/nb)*nb; // get_global_id(0) % nb
+    uint idx1 = gid - (gid/ne)*ne; // get_global_id(0) % ne
    dst[gid] = src0[gid] * src1[idx1];
 }

@ -509,7 +509,7 @@ kernel void kernel_norm(
        global float * dst,
        ulong offsetd,
        int ne00,
-        int nb01,
+        ulong nb01,
        float eps,
        local float * sum
 ) {
@ -569,7 +569,7 @@ kernel void kernel_rms_norm(
        global float * dst,
        ulong offsetd,
        int ne00,
-        int nb01,
+        ulong nb01,
        float eps,
        local float * sum // Note, the size depends on number of subgroups
 ) {
@ -869,18 +869,18 @@ kernel void kernel_rope_norm_f32(
        int ne01,
        int ne02,
        int ne03,
-        int nb00,
-        int nb01,
-        int nb02,
-        int nb03,
+        ulong nb00,
+        ulong nb01,
+        ulong nb02,
+        ulong nb03,
        int ne0,
        int ne1,
        int ne2,
        int ne3,
-        int nb0,
-        int nb1,
-        int nb2,
-        int nb3,
+        ulong nb0,
+        ulong nb1,
+        ulong nb2,
+        ulong nb3,
        int n_past,
        int n_dims,
        int n_ctx_orig,
@ -948,18 +948,18 @@ kernel void kernel_rope_norm_f16(
        int ne01,
        int ne02,
        int ne03,
-        int nb00,
-        int nb01,
-        int nb02,
-        int nb03,
+        ulong nb00,
+        ulong nb01,
+        ulong nb02,
+        ulong nb03,
        int ne0,
        int ne1,
        int ne2,
        int ne3,
-        int nb0,
-        int nb1,
-        int nb2,
-        int nb3,
+        ulong nb0,
+        ulong nb1,
+        ulong nb2,
+        ulong nb3,
        int n_past,
        int n_dims,
        int n_ctx_orig,
@ -1027,18 +1027,18 @@ kernel void kernel_rope_neox_f32(
        int ne01,
        int ne02,
        int ne03,
-        int nb00,
-        int nb01,
-        int nb02,
-        int nb03,
+        ulong nb00,
+        ulong nb01,
+        ulong nb02,
+        ulong nb03,
        int ne0,
        int ne1,
        int ne2,
        int ne3,
-        int nb0,
-        int nb1,
-        int nb2,
-        int nb3,
+        ulong nb0,
+        ulong nb1,
+        ulong nb2,
+        ulong nb3,
        int n_past,
        int n_dims,
        int n_ctx_orig,
@ -1106,18 +1106,18 @@ kernel void kernel_rope_neox_f16(
        int ne01,
        int ne02,
        int ne03,
-        int nb00,
-        int nb01,
-        int nb02,
-        int nb03,
+        ulong nb00,
+        ulong nb01,
+        ulong nb02,
+        ulong nb03,
        int ne0,
        int ne1,
        int ne2,
        int ne3,
-        int nb0,
-        int nb1,
-        int nb2,
-        int nb3,
+        ulong nb0,
+        ulong nb1,
+        ulong nb2,
+        ulong nb3,
        int n_past,
        int n_dims,
        int n_ctx_orig,
@ -1185,18 +1185,18 @@ kernel void kernel_cpy_f16_f16(
        int ne01,
        int ne02,
        int ne03,
-        int nb00,
-        int nb01,
-        int nb02,
-        int nb03,
+        ulong nb00,
+        ulong nb01,
+        ulong nb02,
+        ulong nb03,
        int ne0,
        int ne1,
        int ne2,
        int ne3,
-        int nb0,
-        int nb1,
-        int nb2,
-        int nb3
+        ulong nb0,
+        ulong nb1,
+        ulong nb2,
+        ulong nb3
 ) {
    src0 = (global half*)((global char*)src0 + offset0);
    dst = (global half*)((global char*)dst + offsetd);
@ -1229,18 +1229,18 @@ kernel void kernel_cpy_f16_f32(
        int ne01,
        int ne02,
        int ne03,
-        int nb00,
-        int nb01,
-        int nb02,
-        int nb03,
+        ulong nb00,
+        ulong nb01,
+        ulong nb02,
+        ulong nb03,
        int ne0,
        int ne1,
        int ne2,
        int ne3,
-        int nb0,
-        int nb1,
-        int nb2,
-        int nb3
+        ulong nb0,
+        ulong nb1,
+        ulong nb2,
+        ulong nb3
 ) {

    src0 = (global half*)((global char*)src0 + offset0);
@ -1274,18 +1274,18 @@ kernel void kernel_cpy_f32_f16(
        int ne01,
        int ne02,
        int ne03,
-        int nb00,
-        int nb01,
-        int nb02,
-        int nb03,
+        ulong nb00,
+        ulong nb01,
+        ulong nb02,
+        ulong nb03,
        int ne0,
        int ne1,
        int ne2,
        int ne3,
-        int nb0,
-        int nb1,
-        int nb2,
-        int nb3
+        ulong nb0,
+        ulong nb1,
+        ulong nb2,
+        ulong nb3
 ) {
    src0 = (global float*)((global char*)src0 + offset0);
    dst = (global half*)((global char*)dst + offsetd);
@ -1319,18 +1319,18 @@ kernel void kernel_cpy_f32_f32(
        int ne01,
        int ne02,
        int ne03,
-        int nb00,
-        int nb01,
-        int nb02,
-        int nb03,
+        ulong nb00,
+        ulong nb01,
+        ulong nb02,
+        ulong nb03,
        int ne0,
        int ne1,
        int ne2,
        int ne3,
-        int nb0,
-        int nb1,
-        int nb2,
-        int nb3
+        ulong nb0,
+        ulong nb1,
+        ulong nb2,
+        ulong nb3
 ) {
    src0 = (global float*)((global char*)src0 + offset0);
    dst = (global float*)((global char*)dst + offsetd);
@ -1366,13 +1366,13 @@ kernel void kernel_get_rows_f32(
        global float * dst,
        ulong offsetd,
        int ne00,
-        int nb01,
-        int nb02,
+        ulong nb01,
+        ulong nb02,
        int ne10,
-        int nb10,
-        int nb11,
-        int nb1,
-        int nb2
+        ulong nb10,
+        ulong nb11,
+        ulong nb1,
+        ulong nb2
 ) {
    src0 = (global void*)((global char*)src0 + offset0);
    src1 = (global int*)((global char*)src1 + offset1);
@ -1399,13 +1399,13 @@ kernel void kernel_get_rows_f16(
        global float * dst,
        ulong offsetd,
        int ne00,
-        int nb01,
-        int nb02,
+        ulong nb01,
+        ulong nb02,
        int ne10,
-        int nb10,
-        int nb11,
-        int nb1,
-        int nb2
+        ulong nb10,
+        ulong nb11,
+        ulong nb1,
+        ulong nb2
 ) {
    src0 = (global void*)((global char*)src0 + offset0);
    src1 = (global int*)((global char*)src1 + offset1);
@ -1432,13 +1432,13 @@ kernel void kernel_get_rows_q4_0(
        global float * dst,
        ulong offsetd,
        int ne00,
-        int nb01,
-        int nb02,
+        ulong nb01,
+        ulong nb02,
        int ne10,
-        int nb10,
-        int nb11,
-        int nb1,
-        int nb2
+        ulong nb10,
+        ulong nb11,
+        ulong nb1,
+        ulong nb2
 ) {
    src0 = (global void*)((global char*)src0 + offset0);
    src1 = (global int*)((global char*)src1 + offset1);
@ -1476,17 +1476,17 @@ kernel void kernel_mul_mat_f32_f32(
        int ne00,
        int ne01,
        int ne02,
-        int nb00,
-        int nb01,
-        int nb02,
-        int nb03,
+        ulong nb00,
+        ulong nb01,
+        ulong nb02,
+        ulong nb03,
        int ne10,
        int ne11,
        int ne12,
-        int nb10,
-        int nb11,
-        int nb12,
-        int nb13,
+        ulong nb10,
+        ulong nb11,
+        ulong nb12,
+        ulong nb13,
        int ne0,
        int ne1,
        int r2,
@ -1575,17 +1575,17 @@ kernel void kernel_mul_mat_f16_f16(
        int ne00,
        int ne01,
        int ne02,
-        int nb00,
-        int nb01,
-        int nb02,
-        int nb03,
+        ulong nb00,
+        ulong nb01,
+        ulong nb02,
+        ulong nb03,
        int ne10,
        int ne11,
        int ne12,
-        int nb10,
-        int nb11,
-        int nb12,
-        int nb13,
+        ulong nb10,
+        ulong nb11,
+        ulong nb12,
+        ulong nb13,
        int ne0,
        int ne1,
        int r2,
@ -1672,17 +1672,17 @@ kernel void kernel_mul_mat_f16_f32_1row(
        int ne00,
        int ne01,
        int ne02,
-        int nb00,
-        int nb01,
-        int nb02,
-        int nb03,
+        ulong nb00,
+        ulong nb01,
+        ulong nb02,
+        ulong nb03,
        int ne10,
        int ne11,
        int ne12,
-        int nb10,
-        int nb11,
-        int nb12,
-        int nb13,
+        ulong nb10,
+        ulong nb11,
+        ulong nb12,
+        ulong nb13,
        int ne0,
        int ne1,
        int r2,
@ -1752,17 +1752,17 @@ kernel void kernel_mul_mat_f16_f32(
        int ne00,
        int ne01,
        int ne02,
-        int nb00,
-        int nb01,
-        int nb02,
-        int nb03,
+        ulong nb00,
+        ulong nb01,
+        ulong nb02,
+        ulong nb03,
        int ne10,
        int ne11,
        int ne12,
-        int nb10,
-        int nb11,
-        int nb12,
-        int nb13,
+        ulong nb10,
+        ulong nb11,
+        ulong nb12,
+        ulong nb13,
        int ne0,
        int ne1,
        int r2,
@ -1853,17 +1853,17 @@ kernel void kernel_mul_mat_f16_f32_l4(
        int ne00,
        int ne01,
        int ne02,
-        int nb00,
-        int nb01,
-        int nb02,
-        int nb03,
+        ulong nb00,
+        ulong nb01,
+        ulong nb02,
+        ulong nb03,
        int ne10,
        int ne11,
        int ne12,
-        int nb10,
-        int nb11,
-        int nb12,
-        int nb13,
+        ulong nb10,
+        ulong nb11,
+        ulong nb12,
+        ulong nb13,
        int ne0,
        int ne1,
        int r2,
@ -1954,7 +1954,7 @@ inline void mul_vec_q_n_f32(
        int r3
 ) {

-    const int nb = ne00/QK4_0;
+    const ulong nb = ne00/QK4_0;

    int r0 = get_group_id(0);
    int r1 = get_group_id(1);
@ -2113,7 +2113,7 @@ inline void mul_vec_q_n_f32_v(
        int r2,
        int r3
 ) {
-    const int nb = ne00/QK4_0;
+    const ulong nb = ne00/QK4_0;

    int r0 = get_group_id(0);
    int r1 = get_group_id(1);
@ -2363,7 +2363,7 @@ inline void mul_vec_q_n_f32_flat(
        int r2,
        int r3
 ) {
-    const int nb = ne00/QK4_0;
+    const ulong nb = ne00/QK4_0;

    int r0 = get_group_id(0);
    int r1 = get_group_id(1);
@ -2530,7 +2530,7 @@ inline void mul_vec_q_n_f32_8x_flat(
        int r2,
        int r3
 ) {
-    const int nb = ne00/QK4_0;
+    const ulong nb = ne00/QK4_0;

    int r0 = get_group_id(0);
    int r1 = get_group_id(1);