保存时间:2026/4/2 11:34:56
-l zh 或 --language zh(ISO 639-1 代码,必须小写)# 用 ffmpeg 转成 16kHz 单声道 WAV(最稳)
ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le input.wav
# 编译后的可执行文件一般在 ./build/bin/main 或 ./main
./build/bin/main \
-m models/ggml-large.bin \ # 必须用多语言模型(不带.en后缀)
-l zh \ # 关键:指定中文
-otxt \ # 输出txt
-f input.wav # 你的音频
base/small/medium/large(不带 .en 后缀);.en 模型只支持英文-l 时,默认 en,非英语会被翻译成英文,不是转写zh;自动检测用 -l auto(但中文建议强制 zh 更准).en 模型 → 换 ggml-large.bin 等多语言模型-DWHISPER_FFMPEG=ON,或先转 WAVlarge > medium > small > base)# 下载多语言模型(以large为例)
bash ./models/download-ggml-model.sh large
# 转音频+转写(一步)
ffmpeg -i your.mp3 -ar 16000 -ac 1 -f wav - | ./build/bin/main -m models/ggml-large.bin -l zh -otxt -f -