wip on unified cublas integration, add all the small libraries but exclude the large ones

2023-06-29 18:35:31 +08:00 · 2023-06-29 18:35:31 +08:00 · 86b061b98c
commit 86b061b98c
parent c2f1ed6556
7 changed files with 11 additions and 1 deletions
--- a/cudart64_110.dll
+++ b/cudart64_110.dll
--- a/make_old_pyinstaller_cuda.bat
+++ b/make_old_pyinstaller_cuda.bat
@ -1,4 +1,4 @@
 echo This file is only for my own usage, please do not use it. I am lazy.
 set PATH=d:\\MainApplications\\KoboldAIGPT\\KoboldAI-Horde-Bridge\\python;d:\\MainApplications\\KoboldAIGPT\\KoboldAI-Horde-Bridge\\python\\Scripts;%PATH%
-PyInstaller --noconfirm --onefile --clean --console --icon "./niko.ico" --add-data "./klite.embd;." --add-data "./koboldcpp.dll;." --add-data "./cublas64_11.dll;." --add-data "./cublasLt64_11.dll;." --add-data "./cudart64_110.dll;." --add-data "./msvcp140.dll;." --add-data "./vcruntime140.dll;." --add-data "./vcruntime140_1.dll;." --add-data "./rwkv_vocab.embd;." --add-data "./rwkv_world_vocab.embd;." "./koboldcpp.py" -n "koboldcpp.exe"
+PyInstaller --noconfirm --onefile --clean --console --icon "./nikogreen.ico" --add-data "./klite.embd;." --add-data "./koboldcpp.dll;." --add-data "./koboldcpp_openblas.dll;." --add-data "./koboldcpp_failsafe.dll;." --add-data "./koboldcpp_openblas_noavx2.dll;." --add-data "./libopenblas.dll;." --add-data "./koboldcpp_clblast.dll;." --add-data "./clblast.dll;." --add-data "./koboldcpp_cublas.dll;." --add-data "./cublas64_11.dll;." --add-data "./cublasLt64_11.dll;." --add-data "./cudart64_110.dll;." --add-data "./msvcp140.dll;." --add-data "./vcruntime140.dll;." --add-data "./vcruntime140_1.dll;." --add-data "./rwkv_vocab.embd;." --add-data "./rwkv_world_vocab.embd;." "./koboldcpp.py" -n "koboldcpp.exe"
--- a/msvcp140.dll
+++ b/msvcp140.dll
--- a/nikogreen.ico
+++ b/nikogreen.ico
--- a/otherarch/llama_v2.cpp
+++ b/otherarch/llama_v2.cpp
@ -1063,6 +1063,8 @@ static void llama_v2_model_load_internal(
 #if defined(GGML_USE_CUBLAS)
    {
        const int n_gpu = std::min(n_gpu_layers, int(hparams.n_layer));
        if(GetQuantsUnshuffled())
        {
        fprintf(stderr, "%s: [old cublas] offloading %d layers to GPU\n", __func__, n_gpu);
@ -1086,6 +1088,14 @@ static void llama_v2_model_load_internal(
        fprintf(stderr, "%s: [old cublas] total VRAM used: %zu MB\n", __func__, vram_total / 1024 / 1024);
        }
        else
        {
            if(n_gpu>0)
            {
                printf("\n[WARNING: Old format does not support GPU offloading! It will be deactivated!]\n");
            }
        }
    }
 #elif defined(GGML_USE_CLBLAST)
    {
        const int n_gpu = std::min(n_gpu_layers, int(hparams.n_layer));
--- a/vcruntime140.dll
+++ b/vcruntime140.dll
--- a/vcruntime140_1.dll
+++ b/vcruntime140_1.dll