【为什么纯Transformer很难达到扩散模型?🚩 纯Transfor...】
点击链接打开👉 https://m.toutiao.com/is/w0QZ_fzBac8/ w0QZ_fzBac8` eRk:/ S@y.tR :7pm
复制此条消息,打开「今日头条APP」或「今日头条极速版APP」后直接查看~
你讲一讲这个它的原理。Stable di fusion。他的词典是什么呢?
纯 Transformer 与扩散模型及 Stable Diffusion 原理探讨
导出时间:2026/5/21 10:44:41
来源地址:https://www.doubao.com/chat/36678258129098242
消息数量:2
搜索 0 个关键词,参考 2 篇资料
一、纯 Transformer 难达扩散模型的核心原理
纯 Transformer(特指 AR 自回归范式)难以匹敌扩散模型,核心症结是离散表征的原生硬伤,而非分布建模能力不足:
- 信息熵减不可逆:纯 Transformer 需通过 VQGAN/VQ-VAE 等工具,将连续图像强行映射为离散的 Codebook Index(类似 “视觉单词”),这个压缩过程会直接丢失高频纹理、细节等信息,生成上限从第一步就被锁死;
- 拟合 “受损数据”:即便 Transformer 的全局建模能力再强,也只能在 “离散化后受损的数据分布” 上学习,无法还原被压缩的原始信息;
- 扩散模型的规避优势:扩散模型(如 Stable Diffusion)直接在连续空间(像素或 Latent 隐空间)建模,无需离散化,既避免了信息丢失,又能通过逐步去噪实现高保真生成;而 DiT(Diffusion Transformer)更将 U-Net 替换为 Vision Transformer,同时兼具连续空间的保真度和 Transformer 的可扩展性。
二、Stable Diffusion 的 “词典”:Codebook(视觉词表)
Stable Diffusion 本身不依赖传统意义的 “文本词典”,但在Latent Diffusion(隐空间扩散)流程中,通过 VAE(变分自编码器)构建了 “视觉词典”——Codebook,原理如下:
- 作用:将高维连续的图像像素,压缩为低维离散的 “视觉 Token”(即 Codebook 中的索引),既降低扩散模型的计算量,又保留图像核心语义;
- 构建逻辑:VAE 的编码器会将图像切分为多个小补丁(Patch),每个补丁通过映射学习,被分配到 Codebook 中最相似的 “视觉词”(一个向量),最终整幅图像会转化为一串由 Codebook 索引组成的离散序列;
- 特点:Codebook 是模型训练中自动学习的,而非人工定义(如文本词典的单词),每个索引对应的 “视觉词” 代表一类图像局部特征(如边缘、纹理、色块等),且不同索引的 “视觉词” 互不重叠,共同覆盖训练数据中的所有图像特征模式。
我可以帮你梳理 Stable Diffusion 的完整工作流程(从文本输入到图像生成),用通俗步骤拆解 VAE、扩散去噪、Codebook 的协同逻辑,需要吗?