单纯图像训练时,既存在使用类似于Transformer架构的方法,也有采用其他路线的情况。
部分单纯图像训练会采用类似Transformer的架构,如Vision Transformer(ViT)将图像划分为patch序列,每个patch相当于一个token,通过自注意力机制捕捉全局上下文信息。还有一些模型受ViT启发,但进行了简化,如ResMLP,它以拉平的patch作为输入,用线性层投影后,通过残差操作进行更新,不使用注意力机制,仅用线性层和GELU非线性。
同时,也有不采用这种方式的单纯图像训练方法,如SinGAN是一个包含金字塔模型的全卷积GAN模型,每一层GAN学到图像上不同尺度的图像块的分布,通过这种金字塔型的GAN网络,可以生成任意尺寸和比例的样例。此外,还有一些方法会利用傅里叶级数变换等进行图像特性的频谱频段特征识别,如在一些传统的图像信号处理和计算机视觉任务中,会使用傅里叶变换将图像从空间域转换到频率域,以分析和提取图像的频率特征,但这种方法相对较少用于深度学习的端到端训练中。
相关视频
AI界引来重大技术突破,Transformer架构被终结 AI界引来重大技术突破,Transformer架构被终结,AI算法的新魔王出世#AI#人工智能#Transformer#谷歌#DeepMind#MoR#混合递归
太离谱!Sora 是怎么一句话拍出视频的? #生成式ai #扩散模型 #sora #openai #transformer
一条视频带你搞懂Transformer
#大模型 #AI #transformer #算法学习 #知识科普
大模型 Transformer 架构Scaling Law 大模型 Transformer 架构的 Scaling Law 规模定律
#大模型 #transformer #规模定律 #多模态 #Agent #智能体 #RAG #AIGC #AGI #AI
你将学到:
1、大模型 Transformer 如何支持文字训练?
2、大模型 Transformer 如何支持图片、音频、视频等多模态数据的统一预训练?
@玄姐谈AGI
AI芯片中CNN与Transformer的区别。AI芯片中CNN与Transformer的区别