保存时间:2026/3/29 16:29:29
.bin(权重文件)、config.json、tokenizer.json 等核心文件,统一放在一个文件夹(命名如 deepseek-chat-7b)git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
pip install -r requirements.txt
deepseek-chat-7b)复制到 llama.cpp 目录下python convert_hf_to_gguf.py ./deepseek-chat-7b --outtype f16 --outfile ./deepseek-chat-7b.gguf
--outtype f16 是中等精度(平衡速度和效果),新手直接用;显存紧张可换 q5_1(量化格式,需改命令为 --outtype q5_1)deepseek-chat-7b.gguf 文件koboldcpp_cu12.exe,无显卡选 koboldcpp_nocuda.exekoboldcpp-mac-arm64,Intel 芯片选 koboldcpp-mac-x64koboldcpp-linux-x64-cuda1210,无显卡选 koboldcpp-linux-x64-nocudaKoboldCPP)deepseek-chat-7b.gguf 文件,复制到 KoboldCPP 文件夹下(方便后续选择)koboldcpp_cu12.exe),弹出 GUI 配置界面Browse,选择 KoboldCPP 文件夹下的 deepseek-chat-7b.ggufLaunch 按钮启动,等待日志显示“Server started on port 5000”(启动成功)# Windows 示例(有 GPU)
koboldcpp_cu12.exe --model deepseek-chat-7b.gguf --gpu 30 --threads 4 --port 5000
# Mac/Linux 示例(无 GPU)
./koboldcpp-mac-arm64 --model deepseek-chat-7b.gguf --threads 4 --port 5000
koboldcpp/models/sd 目录),在网页界面切换到“Image Generation”标签使用(与 DeepSeek 模型独立)pip install -r requirements.txt)GPU Layers 数值f16 精度转换,避免高量化格式(如 q2_k)--admin 参数,无需重启服务就能动态切换不同模型配置,测试效率大幅提升(避免内存泄漏)。