纯 Transformer 与扩散模型及 Stable Diffusion 原理探讨

保存时间：2026/3/29 15:52:49

总结实时语音模型信息

内容由豆包 AI 生成

【百万围观、HuggingFace多模态登顶，开源语音版「DeepSee...】点击链接打开👉 https://m.toutiao.com/is/e9WzVQYyH3s/ e9WzVQYyH3s` eRk:/ q@e.Ox :1pm 复制此条消息，打开「今日头条APP」或「今日头条极速版APP」后直接查看~ 这个是关于实时语音生成与这个就tts。和朗读之类的吧。我觉得这个。流程模型架构。这个介绍还是非常有用的。你能不能总结一下，也许我们将来可以去。学习一下。

Chroma 1.0 核心信息总结

定位：FlashLabs 开源的全球首个端到端语音到语音（S2S）模型，聚焦实时语音交互，HuggingFace 多模态榜单（4B版本）排名第一。
核心优势：采用分层多模块架构（Reasoner、Backbone、Decoder、Codec Decoder），通过1:2文本-音频交错策略，实现低延迟（TTFT约150ms、RTF<1），支持个性化声音克隆。
参数与效率：约40亿参数，平衡延迟、吞吐与可部署性，优于同级别小模型，比大模型更高效。
应用场景：企业级客服实时应答、AI语音代理、跨语言语音交互等高并发/实时对话场景。
研究贡献：验证端到端S2S架构可行性，创新交错策略与模块化设计，提供完整训练管线与评价方法。
不足：自然度不及商业系统 ElevenLabs，多语言支持与情感控制需优化。

需要我把这份总结整理成结构化文档（如PDF或思维导图），方便你后续学习查阅吗？

它用到了哪些开源的模型？这些我看到了好像有千问的模型，还有什么其他的模型？它现在能够实现什么样的功能呢？就是说个性化语音，实时的问答应答，多种语言。就意思是说英语跟中文也可以互相交流，而不是说纯粹的中文中文英文英文这种。其实我对于它这个是比较高级复杂的，那么其中它用到的模块有一些，比如说我就需要一个朗读的，就 TTS 的这样一个。模块，一个模型吧，或者有些是直接就语音记录的模型。这个后台理解，在生成这个这个实际上是倒是文本去生成的，这倒是一个普通的模型就能做到的。但是我感觉说最好是说能够跳跃中间这一个环节，比如说语音输入，它就是直接生成的就是语义向量，和这个如果能够训练好了，就是等于是说跟那个其他的这个文本输入的这个语义向量能够对齐，就是 embedding 能对齐，那就省去了中间的这个模型，就是要把声音转成为文字，文字再转为语义向量，语义向量再转成文字，文字再转成语音输出。这个是好几次的这个转换如果能够后台能省去一个向量转文字文字再转向量的过程，那就好了。

你提到的模型是 Chroma 1.0，它不仅用到了千问相关模型，还整合了多个开源模型，且它本身的端到端架构已能省去部分中间转换步骤，不过目前在多语言互译上还有欠缺，以下是详细说明：

用到的开源相关模型：除了以 Qwen2-Audio 构建编码管道、基于 Qwen2.5-Omni - 3B 优化外，还采用 1B 参数的 LLaMA 变体作为主干网络生成粗声学码；Codec Decoder 模块选用 Mimi vocoder 的因果卷积网络来重建连续波形；同时还适配 SGLang 推理框架，进一步降低实时交互延迟。
当前实现的核心功能：一是高保真个性化语音克隆，仅需几秒参考音频，就能零样本克隆说话人声音，说话人相似度比人类基线提升 10.96%；二是低延迟实时语音应答，首 Token 时间仅 146.87 毫秒，实时因子低至 0.43，能支撑流畅的多轮流式对话；三是具备强对话推理能力，4B 参数规模就可在口语对话等基准测试中，和 9B 参数的 GLM - 4 - Voice 等模型相抗衡。但要注意，它目前仅支持英文语音输出，还无法实现中英文互译交流。
关于省去中间转换环节的实现：Chroma 1.0 其实已经实现了你的需求。它的 Reasoner 模块借助 Qwen2 - Audio 编码器处理语音输入，直接生成融合语义与韵律的隐藏状态（类似语义向量），还通过跨模态注意力等技术，让语音对应的语义表示和文本嵌入对齐，无需先把语音转成文字再生成语义向量。之后 Backbone、Decoder 等模块基于该语义状态直接生成声学码，最后由 Codec Decoder 转成语音。整个流程跳过了 “语音 - 文本”“语义向量 - 文本” 的显式转换，避免了多次转换带来的延迟和信息损耗。

要是你仅需要单纯的 TTS 朗读模块，可单独提取它的 Codec Decoder 搭配轻量 Decoder 模块，基于文本或语义向量直接生成语音，适配简单朗读场景。

参考 5 篇资料

Chroma 1.0的模型是如何训练的？

Chroma 1.0的个性化语音克隆功能怎么样？