support new q4_0 layout

2024-07-16 14:17:22 +08:00 · 2024-07-16 14:17:22 +08:00 · 216201230c
commit 216201230c
parent 127d62fa06
2 changed files with 101 additions and 31 deletions
--- a/ggml/src/ggml-sycl.cpp
+++ b/ggml/src/ggml-sycl.cpp
@ -1021,6 +1021,60 @@ static void get_rows_sycl(ggml_backend_sycl_context & ctx, const ggml_tensor *sr
    (void) dst;
 }
 static void get_rows_sycl_q4_0(ggml_backend_sycl_context & ctx, const ggml_tensor *src0, const ggml_tensor *src1,
                          ggml_tensor *dst, const void *src0_dd,
                          const int32_t *src1_dd, float *dst_dd,
                          queue_ptr stream) {
    GGML_TENSOR_BINARY_OP_LOCALS
    // strides in elements
    //const size_t s0 = nb0 / ggml_element_size(dst);
    const size_t s1 = nb1 / ggml_element_size(dst);
    const size_t s2 = nb2 / ggml_element_size(dst);
    const size_t s3 = nb3 / ggml_element_size(dst);
    const size_t s10 = nb10 / ggml_element_size(src1);
    const size_t s11 = nb11 / ggml_element_size(src1);
    const size_t s12 = nb12 / ggml_element_size(src1);
    //const size_t s13 = nb13 / ggml_element_size(src1);
    GGML_ASSERT(ne00 % 2 == 0);
    const sycl::range<3> block_dims(1, 1, SYCL_GET_ROWS_BLOCK_SIZE);
    const int block_num_x = (ne00 + 2 * SYCL_GET_ROWS_BLOCK_SIZE - 1) / (2 * SYCL_GET_ROWS_BLOCK_SIZE);
    const sycl::range<3> block_nums(ne11 * ne12, ne10, block_num_x);
    uint8_t* src0_q = (uint8_t*)src0_dd;
    const size_t ncols = ne00;
    const size_t nrows = ne01;
    sycl::half* src0_d = (sycl::half*)(src0_q + nrows * ncols / 2);
    stream->parallel_for(sycl::nd_range<3>(block_nums * block_dims, block_dims),
        [=](sycl::nd_item<3> item_ct1)[[intel::reqd_sub_group_size(WARP_SIZE)]] {
            const int i00 = (item_ct1.get_group(2) * item_ct1.get_local_range(2) +
                item_ct1.get_local_id(2)) * 2;
            const int i10 = item_ct1.get_local_range(1) * item_ct1.get_group(1) +
                item_ct1.get_local_id(1);
            const int i11 = (item_ct1.get_group(0) * item_ct1.get_local_range(0) +
                item_ct1.get_local_id(0)) / ne12;
            const int i12 = (item_ct1.get_group(0) * item_ct1.get_local_range(0) +
                item_ct1.get_local_id(0)) % ne12;
            if (i00 >= ne00) {
                return;
            }
            const int i01 = src1_dd[i10 * s10 + i11 * s11 + i12 * s12];
            float* dst_row = dst_dd + i10 * s1 + i11 * s2 + i12 * s3;
            const int src0_off = i01 * ncols + i00;
            const int vui = src0_q[src0_off / 2];
            float d = src0_d[src0_off / QK4_0];
            dst_row[i00 + 0] = ((vui & 0xF) - 8) * d;
            dst_row[i00 + 1] = ((vui >> 4) - 8) * d;
        });
 }
 template <typename src0_t>
 static void get_rows_sycl_float(ggml_backend_sycl_context & ctx, const ggml_tensor *src0,
                                const ggml_tensor *src1, ggml_tensor *dst,
@ -2146,7 +2200,8 @@ static void ggml_sycl_op_get_rows(ggml_backend_sycl_context & ctx, const ggml_te
            get_rows_sycl_float(ctx, src0, src1, dst, src0_d, src1_i32, dst_d, stream);
            break;
        case GGML_TYPE_Q4_0:
-            get_rows_sycl<QK4_0, QR4_0, dequantize_q4_0>(ctx, src0, src1, dst, src0_d, src1_i32, dst_d, stream);
+            //get_rows_sycl<QK4_0, QR4_0, dequantize_q4_0>(ctx, src0, src1, dst, src0_d, src1_i32, dst_d, stream);
            get_rows_sycl_q4_0(ctx, src0, src1, dst, src0_d, src1_i32, dst_d, stream);
            break;
        case GGML_TYPE_Q4_1:
            get_rows_sycl<QK4_1, QR4_1, dequantize_q4_1>(ctx, src0, src1, dst, src0_d, src1_i32, dst_d, stream);
@ -4283,12 +4338,51 @@ static void ggml_backend_sycl_buffer_set_tensor(ggml_backend_buffer_t buffer,
    auto stream = &(dpct::dev_mgr::instance().get_device(ctx->device).default_queue());
    SYCL_CHECK(
        CHECK_TRY_ERROR(dpct::dev_mgr::instance().get_device(ctx->device).queues_wait_and_throw()));
    if (tensor->type == GGML_TYPE_Q4_0)
    {
        auto tmp_buf = sycl::malloc_shared<char>(size, *stream);
        GGML_ASSERT((size % sizeof(block_q4_0) == 0));
        GGML_ASSERT((offset % sizeof(block_q4_0) == 0));
        int blk_offset = offset / sizeof(block_q4_0);
        auto qs_ptr = (uint8_t*)tensor->data + blk_offset * QK4_0 / 2;
        size_t ncols = tensor->ne[0];
        size_t nrows = tensor->ne[1];
        auto d_ptr = (sycl::half*)(qs_ptr + ncols * nrows / 2) + blk_offset;
        stream->parallel_for(
            size / QK4_0,
            [=](auto i) [[intel::reqd_sub_group_size(WARP_SIZE)]] {
                const block_q4_0* x = (const block_q4_0*)data;
                int ib = i;
                typedef sycl::vec<uint8_t, QK4_0 / 2> CT;
                CT tmp = *(CT*)x[ib].qs;
                for (int j = 0; j < QK4_0 / 2; j += 2)
                {
                    const int vui = tmp[j];
                    const int vui1 = tmp[j + 1];
                    uint8_t nv = (vui & 0xF) | (vui1 << 4);
                    *(qs_ptr + ib * QK4_0 / 2 + j / 2) = nv;
                }
                for (int j = 0; j < QK4_0 / 2; j += 2)
                {
                    const int vui = tmp[j];
                    const int vui1 = tmp[j + 1];
                    uint8_t nv = (vui >> 4) | (vui1 & 0xf0);
                    *(qs_ptr + ib * QK4_0 / 2 + j / 2 + QK4_0 / 4) = nv;
                }
                *(d_ptr + ib) = x[ib].d;
            });
        sycl::free(tmp_buf, *stream);
    }
    else
    {
        char* host_buf = (char*)malloc(size);
        memcpy(host_buf, data, size);
        SYCL_CHECK(
-        CHECK_TRY_ERROR((*stream).memcpy((char *)tensor->data + offset, host_buf, size)
+            CHECK_TRY_ERROR((*stream).memcpy((char*)tensor->data + offset, host_buf, size)
                .wait()));
        free(host_buf);
    }
 }
 catch (sycl::exception const &exc) {
  std::cerr << exc.what() << "Exception caught at file:" << __FILE__
--- a/ggml/src/ggml-sycl/dmmv.cpp
+++ b/ggml/src/ggml-sycl/dmmv.cpp
@ -905,30 +905,6 @@ static void dequantize_mul_mat_vec_q4_0_sycl(const void *vx, const dfloat *y,
    GGML_ASSERT(ncols % WARP_SIZE == 0);
    const sycl::range<3> block_nums(1, 1, nrows);
    const sycl::range<3> block_dims(1, 1, WARP_SIZE);
    stream->parallel_for(
        nrows * ncols / QK4_0,
        [=](auto i) [[intel::reqd_sub_group_size(WARP_SIZE)]] {
            const block_q4_0 *x = (const block_q4_0 *)vx;
            int ib = i;
            typedef sycl::vec<uint8_t, QK4_0 / 2> CT;
            CT tmp = *(CT *)x[ib].qs;
            for (int j = 0; j < QK4_0 / 2; j += 2)
            {
                const int vui = tmp[j];
                const int vui1 = tmp[j + 1];
                uint8_t nv = (vui & 0xF) | (vui1 << 4);
                *(uint8_t *)(vx_tmp + ib * QK4_0 / 2 + j / 2) = nv;
            }
            for (int j = 0; j < QK4_0 / 2; j += 2)
            {
                const int vui = tmp[j];
                const int vui1 = tmp[j + 1];
                uint8_t nv = (vui >> 4) | (vui1 & 0xf0);
                *(uint8_t *)(vx_tmp + ib * QK4_0 / 2 + j / 2 + QK4_0 / 4) = nv;
            }
            *(sycl::half *)(vx_tmp + ncols * nrows / 2 + ib * 2) = x[ib].d;
        });
    {
        dpct::has_capability_or_fail(stream->get_device(),
                                     {sycl::aspect::fp16});