保存时间:2026/4/2 17:54:15
| 模型 | 参数 | 发布时间 | 核心优势 | 与 Nanbeige4.1-3B 关键差距 |
|---|---|---|---|---|
| Nanbeige4.1-3B | 3B | 2026.2 | 推理 + 代码 + Agent+256K 上下文全能 | 基准线,无同级对手 |
| Qwen3.5-4B | 4B | 2026.3 | 通用能力均衡,中文支持好 | 代码(LiveCodeBench:76.9 vs 55.7)、推理(GPQA:82.2 vs 68.7)、搜索(GAIA:69.9 vs 28.3)全面落后 |
| SmolLM3-3B | 3B | 2026.1 | 欧洲语言强,长上下文(128K) | 中文能力弱,推理 / 代码与 Nanbeige 有量级差距,无 Agent 能力 |
| Mistral-3B-Instruct | 3B | 2025.11 | 速度快,数学基础好 | 上下文仅 8K,推理深度不足,无 Agent 能力 |
| GLM-4.7-Flash | 3B (激活) | 2026.1 | 编码能力强,商用友好 | 通用推理与长上下文弱,无复杂工具调用能力 |
| LLaMA3-3B | 3B | 2026.1 | 英文能力强,生态完善 | 中文差,上下文 16K,无 Agent 能力 |
<|im_start|>user
你的问题<|im_end|>
<|im_start|>assistant
<|im_start|>system
你是一个AI助手<|im_end|>
<|im_start|>user
你的问题<|im_end|>
<|im_start|>assistant
| 模型 | 官方链接 | 推荐 GGUF 量化 | 大小 | 核心特点 |
|---|---|---|---|---|
| SmolLM3-3B | https://huggingface.co/HuggingFaceTB/SmolLM3-3B | Q4_K_M | 2.1GB | 欧洲语言强,128K 上下文 |
| Mistral-3B-Instruct | https://huggingface.co/mistralai/Mistral-3B-Instruct-v0.2 | Q4_K_M | 2.1GB | 速度快,数学基础好 |
| LLaMA3-3B | https://huggingface.co/meta-llama/Meta-Llama-3-3B-Instruct | Q4_K_M | 2.1GB | 英文能力强,生态完善 |
| GLM-4.7-Flash | https://huggingface.co/THUDM/GLM-4-7B-Flash | Q4_K_M | 2.1GB (激活 3B) | 编码能力强,商用友好 |
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp && make LLAMA_CUBLAS=1 # 启用CUDA加速
pip install -r requirements.txt
# 安装huggingface-cli
pip install huggingface-hub
# 下载Q4_K_M量化版
huggingface-cli download TheBloke/Nanbeige4.1-3B-GGUF nanbeige4.1-3b-Q4_K_M.gguf --local-dir models
# Nanbeige4.1-3B(256K上下文)
./main -m models/nanbeige4.1-3b-Q4_K_M.gguf -c 256000 -n 2048 --color -i -r "<|im_end|>" \
-p "<|im_start|>user
50米洗车问题:一辆汽车以50米/分钟的速度通过一个洗车通道,通道长50米,汽车完全通过需要多长时间?<|im_end|>
<|im_start|>assistant
"
# Qwen3.5-4B对比(32K上下文)
./main -m models/qwen3.5-4b-Q4_K_M.gguf -c 32768 -n 2048 --color -i -r "<|im_end|>" \
-p "<|im_start|>system
你是一个AI助手<|im_end|>
<|im_start|>user
50米洗车问题:一辆汽车以50米/分钟的速度通过一个洗车通道,通道长50米,汽车完全通过需要多长时间?<|im_end|>
<|im_start|>assistant
"
curl -fsSL https://ollama.com/install.sh | sh
# Nanbeige4.1-3B(社区镜像)
ollama pull nanbeige4.1:3b
ollama run nanbeige4.1:3b --options '{"num_ctx":256000,"temperature":0.4}'
# Qwen3.5-4B对比
ollama pull qwen:3.5-4b
ollama run qwen:3.5-4b --options '{"num_ctx":32768,"temperature":0.4}'
写一个Python函数,实现快速排序算法,要求时间复杂度O(n log n)
一辆汽车以50米/分钟的速度通过一个洗车通道,通道长50米,汽车完全通过需要多长时间?请给出详细推理过程
请总结以下长文本内容(粘贴一段约200K的英文/中文文本)
我需要查询2026年3月9日杭州的天气,并计算从今天到2026年12月31日还有多少天
# 启用CUDA,设置GPU层数(RTX 4050M设20层)
./main -m models/nanbeige4.1-3b-Q4_K_M.gguf -c 65536 -ngl 20 ...
export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download ...
# 安装依赖
sudo apt install build-essential cmake git libopenblas-dev
# 重新编译
make clean && make LLAMA_CUBLAS=1
-c参数设置即可# 1. 安装转换依赖
cd llama.cpp
pip install -r requirements/requirements-convert_hf_to_gguf.txt
# 2. 转换Nanbeige4.1-3B到GGUF(以f16为例)
python convert_hf_to_gguf.py ../Nanbeige4.1-3B \
--outtype f16 \
--outfile models/nanbeige4.1-3b-f16.gguf \
--tokenizer-hf Nanbeige/Nanbeige4.1-3B # 确保tokenizer正确
# 3. 量化为Q4_K_M(平衡速度与质量,适合RTX 4050M)
./quantize models/nanbeige4.1-3b-f16.gguf models/nanbeige4.1-3b-Q4_K_M.gguf Q4_K_M
# 4. 运行256K上下文对话(核心参数-c 256000)
./main -m models/nanbeige4.1-3b-Q4_K_M.gguf \
-c 256000 \
-ngl 20 \
-n 2048 \
--color -i \
-r "<|im_end|>" \
-p "<|im_start|>user
你的问题<|im_end|>
<|im_start|>assistant
"
--tokenizer-hf参数,避免文本编码错误| 战略层级 | 具体目的 | 与招聘业务的直接关联 |
|---|---|---|
| 业务落地驱动 | 验证小模型在招聘场景的极限能力,为本地部署铺路 | HR 端本地部署需求(数据隐私敏感),降低云端推理成本,提升响应速度 |
| 生态构建 | 建立 “招聘 AI 标准”,吸引开发者基于模型二次开发 | 形成围绕 BOSS 直聘技术的生态,为企业客户提供定制化 AI 工具(如简历解析、面试模拟) |
| 技术品牌塑造 | 证明垂直领域公司的 AI 能力,建立行业壁垒 | 区别于其他招聘平台(依赖第三方 API),强化 “技术驱动招聘” 的品牌认知 |
| 人才吸引 | 吸引 AI 顶尖人才加入,降低招聘成本 | 开源项目是 AI 工程师的 “试金石”,提升招聘效率与质量(尤其 AI 岗位) |
不是只有巨头能做AI;任何有优质私有数据的行业公司,都能做自己的垂直小模型。
Makefile.android和CMakeLists.txt的 Android 编译配置,生态成熟。| 机型档位 | 核心配置 | 实际推理性能(tokens/s) | 体验评价 |
|---|---|---|---|
| 旗舰机(推荐) | 骁龙 8 Gen3/4、天玑 9300/9400;运存 12GB+ | 15-25 | 流畅对话,支持 64K 上下文,长文本总结无压力 |
| 中端机(可用) | 骁龙 7+ Gen3、天玑 8300;运存 8GB+ | 8-12 | 正常对话无卡顿,256K 长上下文需缩减至 32K 使用 |
| 入门机(不可用) | 骁龙 6 系、天玑 7 系;运存 6GB 及以下 | <5 | 输入后需等待数秒,易出现内存溢出(OOM),体验极差 |
nanbeige4.1-3b-Q4_K_M.gguf通过数据线 / 网盘传输到手机的 “LM Studio/KoboldCpp” 目录下;num_ctx=65536、temperature=0.4);CMakeLists.txt中启用 Android 适配:set(ANDROID_ABI arm64-v8a)(仅支持 64 位手机)。cmake -S . -B build-android -DCMAKE_TOOLCHAIN_FILE=$ANDROID_NDK/build/cmake/android.toolchain.cmake -DANDROID_ABI=arm64-v8a -DANDROID_PLATFORM=android-24 -DLLAMA_OPENCL=1(启用 GPU 加速);make -C build-android,得到main可执行文件和libllama.so动态库。main、libllama.so和模型文件推送到手机(通过adb push);./main -m nanbeige4.1-3b-Q4_K_M.gguf -c 65536 -ngl 5(-ngl 5表示分配 5 层计算到 GPU)。LLAMA_OPENCL=1(调用 GPU);LLAMA_NNAPI=1(调用 NPU,需安卓 13+),能让推理速度再提升 30%-50%。8192,速度最快;32768,平衡速度与能力;65536,仅限 12GB + 运存的旗舰机。LLAMA_OPENCL=1编译即可调用-ngl参数(GPU 层卸载数量),实测在骁龙 8 Gen 2 上能提升 **30%-50%** 推理速度# 更新系统并安装依赖
pkg update -y && pkg upgrade -y
pkg install git build-essential cmake opencl-headers opencl-clhpp termux-exec wget
# 安装OpenCL驱动(Adreno专用)
pkg install ocl-icd opencl-utils
# 克隆llama.cpp仓库
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
# 创建构建目录
mkdir build-android && cd build-android
# 配置CMake(启用OpenCL,适配ARM64)
cmake .. \
-DCMAKE_BUILD_TYPE=Release \
-DLLAMA_OPENCL=1 \
-DLLAMA_NATIVE=OFF \ # 关闭本机优化,确保兼容性
-DANDROID_ABI=arm64-v8a \
-DCMAKE_C_COMPILER=aarch64-linux-android-gcc \
-DCMAKE_CXX_COMPILER=aarch64-linux-android-g++
# 编译(使用8线程,匹配CPU核心数)
make -j8
# 返回主目录,创建模型文件夹
cd ..
mkdir models
# 下载Q4_K_M量化版(约2.1GB,平衡速度与质量)
wget -P models https://example.com/nanbeige4.1-3b-Q4_K_M.gguf # 替换为实际模型链接
# 启动推理(核心参数优化)
./build-android/bin/main \
-m models/nanbeige4.1-3b-Q4_K_M.gguf \
-c 65536 \ # 上下文窗口,64K适合手机
-t 8 \ # 线程数,使用所有CPU核心
-ngl 15 \ # GPU层卸载,15层适合Adreno 740
-p "你好,我是荣耀Magic 5 Pro用户,正在测试llama.cpp部署"
-ngl 5开始逐步增加,观察速度提升与发热情况,找到最佳值| 配置 | 推理速度(tokens/s) | 体验评价 |
|---|---|---|
| CPU only(-ngl 0) | 8-10 | 基本可用,输入后有短暂等待 |
| CPU+GPU(-ngl 15) | 12-18 | 流畅对话,响应迅速,长文本处理无压力 |
| 对比你的 RTX 4050M 笔记本 | 约为笔记本的 1/2-1/3 | 适合轻量任务(对话、面试模拟、简历优化),不适合复杂代码生成 |
pkg reinstall ocl-icd opencl-headersexport OPENCL_VENDOR_PATH=/system/vendor/lib64/OpenCL/vendors# 电脑端命令
adb push nanbeige4.1-3b-Q4_K_M.gguf /sdcard/Download/
# Termux端命令
mv /sdcard/Download/nanbeige4.1-3b-Q4_K_M.gguf models/
-ngl 10),或使用手机散热背夹