AI 训练与发展的探讨

保存时间:2026/3/29 21:08:52


AI 训练与发展的探讨
内容由豆包 AI 生成
你是否同意这中间的观点呢?
对于文中观点,有值得探讨和认同的部分,也存在可商榷之处:

值得认同的点

  • 视频对 AI 训练的价值:视频包含丰富多模态信息(视觉、听觉等 ),相比纯文本能提供更立体的场景、行为等内容,用精选视频替代部分文本训练,理论上可让 AI 更高效学习常识,缩短基础智能体开发周期的思路有创新性,从实践看,多模态训练也是当前 AI 发展重要方向,所以用视频助力基础智能体训练有合理性。
  • 进阶智能需突破:文中提到要诞生类似爱因斯坦级别的智能,需在因果提取、符号转化、灵感模拟等方面突破,这契合 AI 发展规律 —— 基础智能到高阶智能,需解决因果推理、抽象符号化、创造性思维等难题,点明了 AI 向深度发展的关键方向。

可商榷的点

  • 视频替代文本的可行性边界:虽视频有优势,但文本在精准传递抽象知识(如数学定理、哲学概念 )等方面有不可替代作用,万亿 token 文本涵盖人类海量知识沉淀,1000 小时视频能否完全覆盖并等效替代,存在疑问,不同知识类型适配的训练素材有差异,简单替代可能遗漏文本独有的知识维度。
  • “平民级 AI” 实现时间判断:技术发展受多种因素制约(算力迭代、算法突破、数据质量与伦理规范等 ),仅靠视频训练范式改变就大幅提前时间,有点乐观。实际中,算力瓶颈、数据标注与处理成本、不同场景适配难题等,都会影响 “平民级 AI” 落地进度,难以单纯因训练素材调整就精准预判时间。
  • 高阶智能构建逻辑:文中对诞生 “爱因斯坦” 级智能的路径描述偏概念化,因果链提取、符号转化、灵感模拟如何具体实现,缺乏清晰技术路径,且人类大脑产生伟大智慧是生物、认知、社会环境等复杂因素协同作用,AI 模拟时能否复刻这种复杂机制,还存在巨大未知。
总体而言,文中观点提出了 AI 训练创新思路,有前瞻性,但部分内容在技术落地性、发展复杂性考量上,需结合实际持续探索验证,可作为 AI 发展方向的一种启发,不过要成为成熟技术路径,还需大量实践完善 。
那么我先问一个基础的问题,就是当前多模态大模型的训练的本质是让模型能理解图片吗?我听说的训练实质是人工添加,或者是利用互联网,或者自动添加的各种所谓的 Tag 来描述图片的内容。就是本质上还是用大语言模型,对描述图片的文字进行处理。只不过把图片进行了像素化的分解,然后进行某种关联。但是是否大语言模型就此能够真的理解图片呢?是一个未知数。就是取决于说你怎样把图片进行元素分解,而这个文字的描述是否就能够一一映射到啊,这些分解的元素,这个训练过程,我是外行,完全不知道。如果能做到很精细的,从最简单的元素,图形的元素这样进行 tag 标注,分解。然后逐渐地进行组合成比较复杂的图像,让大模型,就是多模态大模型,逐渐能够理解文字和对应的图像 object 吧,或者说物物体,或者说是是对象进行挂钩,或者说叫一一映射,那个叫做真正的理解。那么识别是否真的能够识别出图像的各个元素,或者说对象,然后转化成文字呢?如果真能做到这一点的话,我给你一个图片,你应该能够给我一个详细的图片的描述才对。就说这个函数是可逆的,我给你一个文字的描述你应该能够生成图,而反过来,从那个图你也能够稳定的生成相应的描述的文字。这是一个函数与逆函数的关系,现在有做到这一点吗?
当前多模态大模型训练的目标之一是让模型理解图片,但理解方式并非简单的 “用大语言模型处理描述图片的文字” ,而是涉及多方面复杂操作:
  • 多模态大模型对图片的处理方式:在训练中,确实会对图片进行特征提取,将其转化为计算机可处理的特征向量,例如利用卷积神经网络(CNN)提取图像的局部特征,再通过 Transformer 等架构进一步处理这些特征,建立图像特征与文本信息的关联。此外,会采用图像标注(包含人工标注、自动标注等) ,为图像添加标签(tag),建立图像和文本的对应关系,使模型学习到图像内容与文本描述的映射。
  • 大语言模型是否真的 “理解” 图片:目前还难以说大语言模型能像人类一样真正理解图片。虽然通过大量数据训练,模型能完成图像识别、描述生成等任务,但这更多是基于数据中的统计规律和模式匹配,缺乏人类对图片的语义、情感、常识等层面的深度理解。比如在一些复杂场景中,涉及到文化、隐喻等元素时,模型表现可能不尽如人意 。
  • 精细标注与元素映射:从研究和实践来看,对图像进行精细标注,从图形元素等基础层面进行分解、标注,再组合成复杂图像,以实现文字和图像对象的挂钩是一个重要研究方向。一些模型在特定领域和数据集上取得了较好效果,例如在医学影像领域,通过精细标注可以让模型较好地识别病灶等对象并给出对应描述。但在通用场景下,距离完全实现精细的元素映射和准确理解还有差距,因为现实世界图像场景复杂多样,标注的一致性和完整性也存在挑战。
关于能否实现图像与文字描述的双向稳定转换,目前部分多模态大模型在一定程度上做到了:
  • 文生图:已经有不少成熟的文生图模型,像 Stable Diffusion、Midjourney 等,还有 OpenAI 推出的文本引导图像生成的扩散模型 GLIDE ,能根据文字描述生成具有一定质量的图像,在图像生成、艺术创作等领域有广泛应用。
  • 图生文:一些多模态大语言模型(MLLM),例如字节跳动开源的 BAGEL、OpenAI 的 GPT - 4V 等,具备一定的图像理解和描述生成能力,能对输入图像生成相应文字描述。
不过,目前双向转换还存在局限性:
  • 文生图:生成的图像可能存在细节与描述不符、逻辑不合理等问题,对于一些复杂、模糊的文本描述,难以生成完全符合预期的图像。
  • 图生文:模型在面对复杂图像场景,尤其是包含抽象概念、隐含语义的图像时,生成的文字描述可能不够准确、完整,缺乏对图像深层含义的理解和表达 。此外,不同模型在不同场景下的表现差异较大,距离实现像函数与逆函数那样稳定、准确的双向转换,还有较长的路要走。
相关视频
你提到的字节跳动的图生文工具 BAGEL,你给一个介绍,以及它的下载的路径,或者怎样安装,怎样使用吧。
BAGEL 是字节跳动 Seed 研发并开源的多模态基础模型,支持文本、图像和视频的统一理解和生成,总参数 140 亿,推理时动态激活 70 亿参数 ,以下是详细介绍:

技术架构

  • 混合 Transformer 专家(MoT)架构:由两个 Transformer 专家组成,一个专注于多模态理解,另一个专注于多模态生成,这种设计可在不引入特定任务约束的情况下最大化模型容量。
  • 双视觉编码器:采用 Und Encoder 和 Gen Encoder 两个独立的视觉编码器,分别用于捕捉图像的像素级(如颜色、纹理等底层细节 )和语义级特征(像物体类别、场景含义等高阶特征)。
  • 文本标记化和编码:使用 Qwen2.5 LLM 作为初始化,采用 RMSNorm、SwiGLU 激活函数、RoPE 位置编码和 GQA 技术。
  • 位置编码和扩散时间步编码:对 ViT 和 VAE 标记进行 2D 位置编码,并添加时间步嵌入到 VAE 标记的初始隐藏状态中。

训练方式

在大规模交错的文本、图像、视频和网页数据上进行预训练。数据构建协议旨在创建高质量的多模态交错数据集,包含文本数据、视觉文本配对数据、视觉文本交错数据等。采用多阶段训练策略,包括对齐阶段、预训练阶段、持续训练阶段和监督微调阶段,训练过程中调整文本采样比率和学习率以平衡理解和生成任务的信号。

能力特点

  • 多模态理解与生成:能处理图像和文本的混合输入,并以混合格式输出,例如根据图像生成诗歌描述等;在多模态理解基准测试(如 MME-S、MMBench 等 )中表现突出,平均得分优于现有的部分开源模型;在 GenEval 基准测试中,达到了 88% 的总分,超过了部分专门的开源生成模型以及其它开源统一模型。
  • 图像编辑与风格迁移:可以根据自然语言指令对图像局部进行灵活修改,仅使用较少的对齐数据,即可实现图片的风格切换,甚至转换至不同场景中;在 GEdit-Bench 上,表现与当前领先的图像编辑模型 Step1X-Edit 相当,并且超过了 Gemini 2.0。
  • 空间与 3D 能力:具备实现 3D 物体旋转、虚拟环境导航(支持游戏、真实场景、艺术作品、卡通动画等场景 )、未来帧预测等世界模型基础能力,还可进行多视角合成,如生成布料展开图、3D 结构草图等。
  • 长思维链推理:引入了长思维链(Chain-of-Thought,COT)模式,模型在生成之前可先 “思考”,增加长思维链推理后,在 WISE 等需要世界知识和多步复杂推理任务中的能力显著提高。

下载安装及使用方法

  • 获取代码:通过git clone https://github.com/bytedance-seed/BAGEL.git克隆代码仓库。
  • 创建虚拟环境:运行conda create -n bagel python=3.10 -y创建名为bagel的 Python 3.10 虚拟环境,并通过conda activate bagel激活环境。
  • 安装依赖:进入 BAGEL 目录后,运行pip install -r requirements.txt安装所需依赖,还可以根据自身 GPU 显存情况安装flash_attn,比如pip install flash_attn==2.5.8 --no-build-isolation
  • 下载预训练检查点:使用huggingface_hub库下载,示例代码为
python
from huggingface_hub import snapshot_download
save_dir = "models/BAGEL-7B-MoT"
repo_id = "ByteDance-Seed/BAGEL-7B-MoT"
cache_dir = save_dir + "/cache"
snapshot_download(cache_dir=cache_dir, local_dir=save_dir, repo_id=repo_id, local_dir_use_symlinks=False, resume_download=True, allow_patterns=("*.json", "*.safetensors", "*.bin", "*.py", "*.md", "*.txt"))
  • 使用体验
    • 基于 notebook 体验:转到inference.ipynb文件,按照其中的说明和示例进行操作体验 。
    • 基于 Gradio WebUI 体验:先运行pip install gradio安装 Gradio,对于显存 32GB 及以上的 GPU 或者多 GPU 环境,直接运行python app.py;对于 12 - 32GB 显存的 GPU,推荐使用 NF4 量化并使用中文界面,运行python app.py --mode 2 --zh
你可以前往 BAGEL 官网及体验入口进一步了解:
相关视频
参考 5 篇资料