图像识别与大语言模型训练的比较

内容由豆包 AI 生成

我们之前讨论过，就是说目前大模型对于图像或者其他声音这种信号有两种处理的思路。一种就是说利用现有的大语言模型和图像视频进行原素进行绑定，然后联合训练。就是说是图像做了一些标记，然后利用现有的大语言模型对于文字的成熟的模型，就是等于是说把图像跟物体跟文字进行一种对应的绑定。那另一种思路就是说这种优势就是说，你训练了完了这个图形，也就跟文字一一起绑定了。就是说可以将来文生图、图生文这种互换，就是说这种好处。另一种就是说纯视频的训练，就说也不要经过现在的大语言模型了，就纯粹的用图像去识识别这训练。就比如说像自动驾驶公司，它这种训练就是纯粹的图像训练，根本不需要语言机制。那个只需要这个基本的这个图像识别就完了。这种好处是显而易见的，就是说它对于普通的逻辑，它不需要那么复杂逻辑的话，它直直接就训练，省去了大语言模型的这个 overhead，然后它的这个也就是说它的速度啊、效率都会很高。当然它的缺点是明显的，就是像，比如说像一个文盲，他完全不认识字的话，那他就是虽然有逻辑，也就是说有图像逻辑，但是没有文字。他，你跟他说什么他不明白，但是你跟他展示一张照片，他就像猎狗一样去追寻，能够比对这张照片上的物体。这种，那么这个好处在哪里呢？我在想说，有马斯克的这个特斯拉这个公司，很多在这个人工智能上面，跟其他的硅谷七姐妹走了一条不同的路线，因为它是特斯拉电动车，所以它是自动驾驶，它不需要说跟大语言模型绑定。那么它有一个独特的优势，就是说将来美国军方的这种地面无人装备或者空中无人装备，这个它是非常契合的，因为它很多情况下不需要需要说那么复杂的跟，用文字去下命令，我用个图片给他，目标锁定，他就像猎狗一样直接追出去。就像导弹一样，有个目的，有个目标，他就追出去。这个目标是什么样，就图像识别就完了。是吧？这个，所以这个方面是一个非常厉害的。我现在想知道说单单的图像识别这种训练，跟用走这种大语言模型加图像绑定的这种训练，那么两个模型在性能效率上，在训练以及推理上，这种能差别有多大？就说这个这个性能啊，这个资源消耗这方面，效果呢有多大？

单纯的图像识别训练和大语言模型加图像绑定的训练在性能效率、训练及推理、资源消耗和效果等方面存在一定差别，具体如下：

性能效率：在一些特定的图像识别任务中，单纯的图像识别训练可能具有较高的效率。例如，剑桥、伦敦大学学院和谷歌的研究团队推出的基于强化学习的视觉规划（VPRL），它直接利用图像序列进行推理，在多个代表性视觉导航任务中的性能表现远超基于文本的推理方法，准确率高达80%，性能超文本推理至少40%。而大语言模型加图像绑定的训练，由于需要处理文本和图像两种模态的数据，并且要进行模态间的对齐和融合，在推理速度上可能会相对较慢，但在处理需要综合理解文本和图像信息的复杂任务时，其性能优势可能会体现出来。
训练及推理：单纯图像识别训练的模型结构相对简单，通常只需要训练图像编码器等相关组件，训练过程相对较快，如自动驾驶中的图像训练，不需要语言机制，可直接对图像进行处理。大语言模型加图像绑定的训练则较为复杂，需要同时考虑语言模型和图像模型的训练，以及两者之间的联合训练。如Meta研究团队提出的VPiT，需要先冻结大部分预训练语言模型的参数，只训练视觉相关的新增组件，随着训练的进行，再逐步解冻模型参数，允许更深层次的视觉语言融合。
资源消耗：单纯图像识别训练由于模型规模相对较小，训练和推理过程中对计算资源和存储资源的需求也相对较低。大语言模型本身就需要大量的计算资源和数据进行训练，加上图像数据后，资源消耗会进一步增加。训练大语言模型需要大量的高性能GPU和大规模的数据集，推理时也需要较高的计算资源。
效果：单纯图像识别训练在图像识别任务上可以取得较好的效果，但由于缺乏语言信息的支持，在处理需要语义理解、逻辑推理和语言描述的任务时会受到限制。大语言模型加图像绑定的训练可以充分利用语言模型的语义理解和推理能力，以及图像模型的视觉特征提取能力，在文生图、图生文、视觉问答等多模态任务上能够取得更好的效果。例如，VPiT在图像理解方面表现出色，在MS - COCO数据集上的FID评分达到了与专门的图像生成模型相当的水平，并且在跨模态理解方面具有独特优势。

其实我想知道细节，在单纯图像训练的时候，它是否也是使用类似于 Transformer 这种架构？就是说把这个图像的元素分成一个一个基本的元素，类似于 token 这样，建立一个词汇表，然后再去按照概率去产生，就 Stable Diffusion 这种做法？还是说它完，走的是完全不同的一个路线，就是说纯粹用傅里叶级数变换这种，去进行这种就是图像特性的这种频谱频段的这特征的识别，而不必去顾虑，或考虑说它是一个一个的，就是说元素。它的模式识别，或者说它的图像的最小单元元素是什么呢？是一个一个的一个一个的小的区块的这种图像的元素吗？

单纯图像训练时，既存在使用类似于Transformer架构的方法，也有采用其他路线的情况。

部分单纯图像训练会采用类似Transformer的架构，如Vision Transformer（ViT）将图像划分为patch序列，每个patch相当于一个token，通过自注意力机制捕捉全局上下文信息。还有一些模型受ViT启发，但进行了简化，如ResMLP，它以拉平的patch作为输入，用线性层投影后，通过残差操作进行更新，不使用注意力机制，仅用线性层和GELU非线性。

同时，也有不采用这种方式的单纯图像训练方法，如SinGAN是一个包含金字塔模型的全卷积GAN模型，每一层GAN学到图像上不同尺度的图像块的分布，通过这种金字塔型的GAN网络，可以生成任意尺寸和比例的样例。此外，还有一些方法会利用傅里叶级数变换等进行图像特性的频谱频段特征识别，如在一些传统的图像信号处理和计算机视觉任务中，会使用傅里叶变换将图像从空间域转换到频率域，以分析和提取图像的频率特征，但这种方法相对较少用于深度学习的端到端训练中。

相关视频

AI界引来重大技术突破，Transformer架构被终结 AI界引来重大技术突破，Transformer架构被终结，AI算法的新魔王出世#AI#人工智能#Transformer#谷歌#DeepMind#MoR#混合递归

太离谱！Sora 是怎么一句话拍出视频的？ #生成式ai #扩散模型 #sora #openai #transformer

一条视频带你搞懂Transformer #大模型 #AI #transformer #算法学习 #知识科普

大模型 Transformer 架构Scaling Law 大模型 Transformer 架构的 Scaling Law 规模定律 #大模型 #transformer #规模定律 #多模态 #Agent #智能体 #RAG #AIGC #AGI #AI 你将学到： 1、大模型 Transformer 如何支持文字训练？ 2、大模型 Transformer 如何支持图片、音频、视频等多模态数据的统一预训练？ @玄姐谈AGI

AI芯片中CNN与Transformer的区别。AI芯片中CNN与Transformer的区别

那么像特斯拉这种自动驾驶公司，他们的图像识别这种，他们采用的是什么样的技术路线呢？就是中国有大量的这种自自动驾驶方面的公司，在他们的技术路线是怎样子呢？特斯拉又是怎样子呢？我问这个问题，实际上就是说，在我看来，这个跟军事应用有紧密的联系。他们非常容易迁移到军用的这种无人装备上，包括大疆这种公司都有可能能去使用这种无人，这个这个智能，这种装备。他们这个技术线决定了这种，他们能不能在嵌入式的小系统，或者说是无人装备上大量廉价的普及。

特斯拉在图像识别方面采用的是纯视觉技术路线，以端到端神经网络为核心。其具体技术特点如下：

传感器配置：车辆搭载 8 个环绕摄像头、1 个前向主摄像头、1 个后视摄像头，覆盖 360 度视野，以每秒 36 帧的速率采集原始图像，通过时间序列构建环境模型。
网络架构：采用 HydraNet 多任务网络，共享主干（ResNet-50 改进版）提取通用特征，分支网络处理物体检测、车道线识别等任务，再通过 Transformer 时序模型整合历史帧信息，生成驾驶指令。
数据处理：利用影子模式收集人类驾驶行为数据，自动标注数亿帧图像中的目标，并通过 NeRF 技术重构 3D 场景，减少人工标注成本。

中国自动驾驶公司的图像识别技术路线则呈现多样化，部分公司也在探索纯视觉方案，例如：

广汽研究院：于 2024 年 4 月 12 日正式发布无图纯视觉智驾系统，计划于 2026 年搭载在量产车上。该系统在视觉识别上基于自研的道路感知多任务模型 XRoadNet，通过多路相机输入的 BEV+Transformer 感知框架技术，对摄像头拍到的图像特征进行提取、融合，并转换到 3D 空间里。
大疆车载：其 “成行平台” 利用 BEV 融合算法，把不同传感器的数据在特征提取阶段映射到以本车坐标系下，然后进行融合，通过深度学习技术感知车辆周围环境。硬件方面，大疆车载的方案较为精简，如 iCAR03 最基础的智驾版本仅仅只装配了 7 颗摄像头，算力低到只有 32TOPS。
百度：ANP3Pro 智驾方案基于纯视觉方案，硬件包括 1 颗算力 254TOPs 的英伟达芯片、11 颗摄像头、3 颗毫米波雷达、12 颗超声波雷达，总成本仅需万元。极越 01 以 “BEV+OCC+Transformer” 的高阶智驾的完整体系，大幅提升 “纯视觉” 智驾方案应对异形障碍物识别和场景泛化的能力。