ggml : reduce hash table reset cost (#8698)
* ggml : reduce hash table reset cost
* fix unreachable code warnings after GGML_ASSERT(false)
* GGML_ASSERT(false) -> GGML_ABORT("fatal error")
* GGML_ABORT use format string
			
			
This commit is contained in:
		
							parent
							
								
									01245f5b16
								
							
						
					
					
						commit
						2b1f616b20
					
				
					 46 changed files with 851 additions and 754 deletions
				
			
		|  | @ -81,7 +81,7 @@ static void argsort_f32_i32_cuda(const float * x, int * dst, const int ncols, co | |||
|     } else if (order == GGML_SORT_ORDER_DESC) { | ||||
|         k_argsort_f32_i32<GGML_SORT_ORDER_DESC><<<block_nums, block_dims, shared_mem, stream>>>(x, dst, ncols, ncols_pad); | ||||
|     } else { | ||||
|         GGML_ASSERT(false); | ||||
|         GGML_ABORT("fatal error"); | ||||
|     } | ||||
| } | ||||
| 
 | ||||
|  |  | |||
|  | @ -259,7 +259,7 @@ static void ggml_cuda_op_bin_bcast( | |||
|     } else { | ||||
|         fprintf(stderr, "%s: unsupported types: dst: %s, src0: %s, src1: %s\n", __func__, | ||||
|             ggml_type_name(dst->type), ggml_type_name(src0->type), ggml_type_name(src1->type)); | ||||
|         GGML_ASSERT(false); | ||||
|         GGML_ABORT("fatal error"); | ||||
|     } | ||||
| } | ||||
| 
 | ||||
|  |  | |||
|  | @ -348,7 +348,7 @@ static __device__ void no_device_code( | |||
| #ifdef __CUDA_ARCH__ | ||||
| #define NO_DEVICE_CODE no_device_code(__FILE__, __LINE__, __FUNCTION__, __CUDA_ARCH__, STRINGIZE(__CUDA_ARCH_LIST__)) | ||||
| #else | ||||
| #define NO_DEVICE_CODE //GGML_ASSERT(false && "NO_DEVICE_CODE not valid in host code.") | ||||
| #define NO_DEVICE_CODE //GGML_ABORT("NO_DEVICE_CODE not valid in host code.") | ||||
| #endif // __CUDA_ARCH__ | ||||
| 
 | ||||
| static __device__ __forceinline__ float warp_reduce_sum(float x) { | ||||
|  |  | |||
|  | @ -451,7 +451,7 @@ void ggml_cuda_cpy(ggml_backend_cuda_context & ctx, const ggml_tensor * src0, gg | |||
|     } else { | ||||
|         fprintf(stderr, "%s: unsupported type combination (%s to %s)\n", __func__, | ||||
|                 ggml_type_name(src0->type), ggml_type_name(src1->type)); | ||||
|         GGML_ASSERT(false); | ||||
|         GGML_ABORT("fatal error"); | ||||
|     } | ||||
| } | ||||
| 
 | ||||
|  | @ -484,6 +484,6 @@ void* ggml_cuda_cpy_fn(const ggml_tensor * src0, ggml_tensor * src1) { | |||
|     } else { | ||||
|         fprintf(stderr, "%s: unsupported type combination (%s to %s)\n", __func__, | ||||
|                 ggml_type_name(src0->type), ggml_type_name(src1->type)); | ||||
|         GGML_ASSERT(false); | ||||
|         GGML_ABORT("fatal error"); | ||||
|     } | ||||
| } | ||||
|  |  | |||
|  | @ -662,7 +662,7 @@ void ggml_cuda_op_dequantize_mul_mat_vec( | |||
|             convert_mul_mat_vec_f16_cuda(src0_dd_i, src1_dfloat, dst_dd_i, ne00, row_diff, stream); | ||||
|             break; | ||||
|         default: | ||||
|             GGML_ASSERT(false); | ||||
|             GGML_ABORT("fatal error"); | ||||
|             break; | ||||
|     } | ||||
| 
 | ||||
|  |  | |||
|  | @ -564,7 +564,7 @@ static void on_no_fattn_vec_case(const int D) { | |||
|         fprintf(stderr, "Unsupported KV type combination for head_size 64.\n"); | ||||
|         fprintf(stderr, "By default only f16 KV cache is supported.\n"); | ||||
|         fprintf(stderr, "Compile with GGML_CUDA_FA_ALL_QUANTS for V cache quantization support.\n"); | ||||
|         GGML_ASSERT(false); | ||||
|         GGML_ABORT("fatal error"); | ||||
|     } else if (D == 128) { | ||||
|         fprintf(stderr, "Unsupported KV type combination for head_size 128.\n"); | ||||
|         fprintf(stderr, "Supported combinations:\n"); | ||||
|  | @ -572,11 +572,11 @@ static void on_no_fattn_vec_case(const int D) { | |||
|         fprintf(stderr, "  - K == q8_0, V == q8_0,  8.50 BPV\n"); | ||||
|         fprintf(stderr, "  - K == f16,  V == f16,  16.00 BPV\n"); | ||||
|         fprintf(stderr, "Compile with GGML_CUDA_FA_ALL_QUANTS for all combinations of q4_0, q4_1, q5_0, q5_1, q8_0, and f16.\n"); | ||||
|         GGML_ASSERT(false); | ||||
|         GGML_ABORT("fatal error"); | ||||
|     } else { | ||||
|         fprintf(stderr, "Unsupported KV type combination for head_size 256.\n"); | ||||
|         fprintf(stderr, "Only f16 is supported.\n"); | ||||
|         GGML_ASSERT(false); | ||||
|         GGML_ABORT("fatal error"); | ||||
|     } | ||||
| } | ||||
| 
 | ||||
|  |  | |||
|  | @ -287,7 +287,7 @@ void launch_fattn_tile_f16_64_128(ggml_backend_cuda_context & ctx, ggml_tensor * | |||
|             launch_fattn<D, parallel_blocks>(ctx, dst, fattn_kernel, nwarps, cols_per_block, true, true); | ||||
|         } break; | ||||
|         default: { | ||||
|             GGML_ASSERT(false && "FlashAttention without tensor cores only supports head sizes 64 and 128."); | ||||
|             GGML_ABORT("FlashAttention without tensor cores only supports head sizes 64 and 128."); | ||||
|         } break; | ||||
|     } | ||||
| } | ||||
|  |  | |||
|  | @ -284,7 +284,7 @@ void launch_fattn_tile_f32_64_128(ggml_backend_cuda_context & ctx, ggml_tensor * | |||
|             launch_fattn<D, parallel_blocks>(ctx, dst, fattn_kernel, nwarps, cols_per_block, true, true); | ||||
|         } break; | ||||
|         default: { | ||||
|             GGML_ASSERT(false && "FlashAttention without tensor cores only supports head sizes 64 and 128."); | ||||
|             GGML_ABORT("FlashAttention without tensor cores only supports head sizes 64 and 128."); | ||||
|         } break; | ||||
|     } | ||||
| } | ||||
|  |  | |||
|  | @ -38,7 +38,7 @@ static void ggml_cuda_flash_attn_ext_wmma_f16(ggml_backend_cuda_context & ctx, g | |||
|                     ggml_cuda_flash_attn_ext_wmma_f16_case<256, cols_per_block, float>(ctx, dst); | ||||
|                     break; | ||||
|                 default: | ||||
|                     GGML_ASSERT(false); | ||||
|                     GGML_ABORT("fatal error"); | ||||
|                     break; | ||||
|             } | ||||
|         } else { | ||||
|  | @ -63,7 +63,7 @@ static void ggml_cuda_flash_attn_ext_wmma_f16(ggml_backend_cuda_context & ctx, g | |||
|                 //     ggml_cuda_flash_attn_ext_wmma_f16_case<128, cols_per_block, float>(ctx, dst); | ||||
|                 //     break; | ||||
|                 default: | ||||
|                     GGML_ASSERT(false); | ||||
|                     GGML_ABORT("fatal error"); | ||||
|                     break; | ||||
|             } | ||||
|         } | ||||
|  | @ -86,7 +86,7 @@ static void ggml_cuda_flash_attn_ext_wmma_f16(ggml_backend_cuda_context & ctx, g | |||
|                 ggml_cuda_flash_attn_ext_wmma_f16_case<256, cols_per_block, half>(ctx, dst); | ||||
|                 break; | ||||
|             default: | ||||
|                 GGML_ASSERT(false); | ||||
|                 GGML_ABORT("fatal error"); | ||||
|                 break; | ||||
|         } | ||||
|         return; | ||||
|  | @ -114,7 +114,7 @@ static void ggml_cuda_flash_attn_ext_wmma_f16(ggml_backend_cuda_context & ctx, g | |||
|                 ggml_cuda_flash_attn_ext_wmma_f16_case<256, cols_per_block, half>(ctx, dst); | ||||
|                 break; | ||||
|             default: | ||||
|                 GGML_ASSERT(false); | ||||
|                 GGML_ABORT("fatal error"); | ||||
|                 break; | ||||
|         } | ||||
|         return; | ||||
|  | @ -141,7 +141,7 @@ static void ggml_cuda_flash_attn_ext_wmma_f16(ggml_backend_cuda_context & ctx, g | |||
|             ggml_cuda_flash_attn_ext_wmma_f16_case<256, cols_per_block, half>(ctx, dst); | ||||
|             break; | ||||
|         default: | ||||
|             GGML_ASSERT(false); | ||||
|             GGML_ABORT("fatal error"); | ||||
|             break; | ||||
|     } | ||||
| } | ||||
|  |  | |||
|  | @ -171,8 +171,7 @@ void ggml_cuda_op_get_rows(ggml_backend_cuda_context & ctx, ggml_tensor * dst) { | |||
|             break; | ||||
|         default: | ||||
|             // TODO: k-quants | ||||
|             fprintf(stderr, "%s: unsupported type: %s\n", __func__, ggml_type_name(src0->type)); | ||||
|             GGML_ASSERT(false); | ||||
|             GGML_ABORT("%s: unsupported type: %s\n", __func__, ggml_type_name(src0->type)); | ||||
|             break; | ||||
|     } | ||||
| } | ||||
|  |  | |||
|  | @ -84,7 +84,7 @@ void ggml_cuda_op_mul_mat_q( | |||
|             mul_mat_q_case<GGML_TYPE_IQ4_NL>(ctx, args, stream); | ||||
|             break; | ||||
|         default: | ||||
|             GGML_ASSERT(false); | ||||
|             GGML_ABORT("fatal error"); | ||||
|             break; | ||||
|     } | ||||
| 
 | ||||
|  |  | |||
|  | @ -75,7 +75,7 @@ static mmq_q8_1_ds_layout mmq_get_q8_1_ds_layout(const ggml_type type_x) { | |||
|         case GGML_TYPE_IQ4_NL: | ||||
|             return MMQ_Q8_1_DS_LAYOUT_D4; | ||||
|         default: | ||||
|             GGML_ASSERT(false); | ||||
|             GGML_ABORT("fatal error"); | ||||
|             break; | ||||
|     } | ||||
| } | ||||
|  | @ -2898,7 +2898,7 @@ void mul_mat_q_case(ggml_backend_cuda_context & ctx, const mmq_args & args, cuda | |||
|             break; | ||||
|         default: | ||||
|             fprintf(stderr, "mmq_x_best=%d\n", mmq_x_best); | ||||
|             GGML_ASSERT(false); | ||||
|             GGML_ABORT("fatal error"); | ||||
|             break; | ||||
|     } | ||||
| } | ||||
|  |  | |||
|  | @ -162,7 +162,7 @@ static void mul_mat_vec_q_cuda( | |||
|                 rows_per_cuda_block = 2; | ||||
|                 break; | ||||
|             default: | ||||
|                 GGML_ASSERT(false); | ||||
|                 GGML_ABORT("fatal error"); | ||||
|                 break; | ||||
|         } | ||||
|     } | ||||
|  | @ -196,7 +196,7 @@ static void mul_mat_vec_q_cuda( | |||
|             mul_mat_vec_q<type, 8><<<block_nums, block_dims, 0, stream>>>(vx, vy, dst, ncols_x, nrows_x, nrows_y, nrows_dst); | ||||
|             break; | ||||
|         default: | ||||
|             GGML_ASSERT(false); | ||||
|             GGML_ABORT("fatal error"); | ||||
|             break; | ||||
|     } | ||||
| } | ||||
|  | @ -413,7 +413,7 @@ void ggml_cuda_op_mul_mat_vec_q( | |||
|             mul_mat_vec_iq3_s_q8_1_cuda(src0_dd_i, src1_ddq_i, dst_dd_i, ne00, row_diff, src1_padded_row_size, src1_ncols, nrows_dst, stream); | ||||
|             break; | ||||
|         default: | ||||
|             GGML_ASSERT(false); | ||||
|             GGML_ABORT("fatal error"); | ||||
|             break; | ||||
|     } | ||||
| 
 | ||||
|  |  | |||
|  | @ -163,7 +163,7 @@ void quantize_mmq_q8_1_cuda( | |||
|                 <<<num_blocks, block_size, 0, stream>>>(x, vy, kx0, kx1, kx0_padded); | ||||
|             break; | ||||
|         default: | ||||
|             GGML_ASSERT(false); | ||||
|             GGML_ABORT("fatal error"); | ||||
|             break; | ||||
|     } | ||||
| } | ||||
|  |  | |||
|  | @ -251,7 +251,7 @@ void ggml_cuda_op_rope(ggml_backend_cuda_context & ctx, ggml_tensor * dst) { | |||
|                 attn_factor, corr_dims, freq_factors, stream | ||||
|             ); | ||||
|         } else { | ||||
|             GGML_ASSERT(false); | ||||
|             GGML_ABORT("fatal error"); | ||||
|         } | ||||
|     } else { | ||||
|         if (src0->type == GGML_TYPE_F32) { | ||||
|  | @ -265,7 +265,7 @@ void ggml_cuda_op_rope(ggml_backend_cuda_context & ctx, ggml_tensor * dst) { | |||
|                 attn_factor, corr_dims, freq_factors, stream | ||||
|             ); | ||||
|         } else { | ||||
|             GGML_ASSERT(false); | ||||
|             GGML_ABORT("fatal error"); | ||||
|         } | ||||
|     } | ||||
| } | ||||
|  |  | |||
		Loading…
	
	Add table
		Add a link
		
	
		Reference in a new issue