iq4_nl

2024-06-11 23:23:24 -04:00 · 2024-06-11 23:23:24 -04:00 · 8d1d112a9f
commit 8d1d112a9f
parent 2f37328052
1 changed files with 38 additions and 0 deletions
--- a/ggml-quants.c
+++ b/ggml-quants.c
@ -11275,6 +11275,44 @@ void ggml_vec_dot_iq4_nl_q8_0(int n, float * restrict s, size_t bs, const void *
    *s = hsum_float_8(_mm256_add_ps(accum1, accum2));
 #elif defined __AVX__
    const __m128i values128 = _mm_loadu_si128((const __m128i*)kvalues_iq4nl);
    const __m128i m4b  = _mm_set1_epi8(0x0f);
    const __m128i mone = _mm_set1_epi16(1);
    __m256 accum1 = _mm256_setzero_ps();
    __m256 accum2 = _mm256_setzero_ps();
    for (int ib = 0; ib < nb; ib += 2) {
        const __m128i q4bits_1 = _mm_loadu_si128((const __m128i *)x[0].qs);
        const __m128i q4bits_2 = _mm_loadu_si128((const __m128i *)x[1].qs);
        const __m128i q8b_1_0 = _mm_loadu_si128((const __m128i *)y[0].qs);
        const __m128i q8b_1_1 = _mm_loadu_si128((const __m128i *)y[0].qs + 1);
        const __m128i q8b_2_0 = _mm_loadu_si128((const __m128i *)y[1].qs);
        const __m128i q8b_2_1 = _mm_loadu_si128((const __m128i *)y[1].qs + 1);
        const __m128i q4b_1_0 = _mm_shuffle_epi8(values128, _mm_and_si128(q4bits_1, m4b));
        const __m128i q4b_1_1 = _mm_shuffle_epi8(values128, _mm_and_si128(_mm_srli_epi16(q4bits_1, 4), m4b));
        const __m128i q4b_2_0 = _mm_shuffle_epi8(values128, _mm_and_si128(q4bits_2, m4b));
        const __m128i q4b_2_1 = _mm_shuffle_epi8(values128, _mm_and_si128(_mm_srli_epi16(q4bits_2, 4), m4b));
        const __m128i p16_1_0 = mul_add_epi8_sse(q4b_1_0, q8b_1_0);
        const __m128i p16_1_1 = mul_add_epi8_sse(q4b_1_1, q8b_1_1);
        const __m128i p16_2_0 = mul_add_epi8_sse(q4b_2_0, q8b_2_0);
        const __m128i p16_2_1 = mul_add_epi8_sse(q4b_2_1, q8b_2_1);
        const __m128i p_1_0 = _mm_madd_epi16(p16_1_0, mone);
        const __m128i p_1_1 = _mm_madd_epi16(p16_1_1, mone);
        const __m128i p_2_0 = _mm_madd_epi16(p16_2_0, mone);
        const __m128i p_2_1 = _mm_madd_epi16(p16_2_1, mone);
        accum1 = _mm256_add_ps(_mm256_mul_ps(_mm256_set1_ps(GGML_FP16_TO_FP32(y[0].d)*GGML_FP16_TO_FP32(x[0].d)),
                _mm256_cvtepi32_ps(MM256_SET_M128I(p_1_1, p_1_0))), accum1);
        accum2 = _mm256_add_ps(_mm256_mul_ps(_mm256_set1_ps(GGML_FP16_TO_FP32(y[1].d)*GGML_FP16_TO_FP32(x[1].d)),
                _mm256_cvtepi32_ps(MM256_SET_M128I(p_2_1, p_2_0))), accum2);
        y += 2;
        x += 2;
    }
    *s = hsum_float_8(_mm256_add_ps(accum1, accum2));
 #elif defined(__POWER9_VECTOR__)
    const vector signed char lowMask = vec_splats((signed char)0xF);
    const vector unsigned char v4 = vec_splats((unsigned char)0x4);