你提到的模型是 Chroma 1.0,它不仅用到了千问相关模型,还整合了多个开源模型,且它本身的端到端架构已能省去部分中间转换步骤,不过目前在多语言互译上还有欠缺,以下是详细说明:
- 用到的开源相关模型:除了以 Qwen2-Audio 构建编码管道、基于 Qwen2.5-Omni - 3B 优化外,还采用 1B 参数的 LLaMA 变体作为主干网络生成粗声学码;Codec Decoder 模块选用 Mimi vocoder 的因果卷积网络来重建连续波形;同时还适配 SGLang 推理框架,进一步降低实时交互延迟。
- 当前实现的核心功能:一是高保真个性化语音克隆,仅需几秒参考音频,就能零样本克隆说话人声音,说话人相似度比人类基线提升 10.96%;二是低延迟实时语音应答,首 Token 时间仅 146.87 毫秒,实时因子低至 0.43,能支撑流畅的多轮流式对话;三是具备强对话推理能力,4B 参数规模就可在口语对话等基准测试中,和 9B 参数的 GLM - 4 - Voice 等模型相抗衡。但要注意,它目前仅支持英文语音输出,还无法实现中英文互译交流。
- 关于省去中间转换环节的实现:Chroma 1.0 其实已经实现了你的需求。它的 Reasoner 模块借助 Qwen2 - Audio 编码器处理语音输入,直接生成融合语义与韵律的隐藏状态(类似语义向量),还通过跨模态注意力等技术,让语音对应的语义表示和文本嵌入对齐,无需先把语音转成文字再生成语义向量。之后 Backbone、Decoder 等模块基于该语义状态直接生成声学码,最后由 Codec Decoder 转成语音。整个流程跳过了 “语音 - 文本”“语义向量 - 文本” 的显式转换,避免了多次转换带来的延迟和信息损耗。
要是你仅需要单纯的 TTS 朗读模块,可单独提取它的 Codec Decoder 搭配轻量 Decoder 模块,基于文本或语义向量直接生成语音,适配简单朗读场景。