BAGEL 是字节跳动 Seed 研发并开源的多模态基础模型,支持文本、图像和视频的统一理解和生成,总参数 140 亿,推理时动态激活 70 亿参数 ,以下是详细介绍:
- 混合 Transformer 专家(MoT)架构:由两个 Transformer 专家组成,一个专注于多模态理解,另一个专注于多模态生成,这种设计可在不引入特定任务约束的情况下最大化模型容量。
- 双视觉编码器:采用 Und Encoder 和 Gen Encoder 两个独立的视觉编码器,分别用于捕捉图像的像素级(如颜色、纹理等底层细节 )和语义级特征(像物体类别、场景含义等高阶特征)。
- 文本标记化和编码:使用 Qwen2.5 LLM 作为初始化,采用 RMSNorm、SwiGLU 激活函数、RoPE 位置编码和 GQA 技术。
- 位置编码和扩散时间步编码:对 ViT 和 VAE 标记进行 2D 位置编码,并添加时间步嵌入到 VAE 标记的初始隐藏状态中。
在大规模交错的文本、图像、视频和网页数据上进行预训练。数据构建协议旨在创建高质量的多模态交错数据集,包含文本数据、视觉文本配对数据、视觉文本交错数据等。采用多阶段训练策略,包括对齐阶段、预训练阶段、持续训练阶段和监督微调阶段,训练过程中调整文本采样比率和学习率以平衡理解和生成任务的信号。
- 多模态理解与生成:能处理图像和文本的混合输入,并以混合格式输出,例如根据图像生成诗歌描述等;在多模态理解基准测试(如 MME-S、MMBench 等 )中表现突出,平均得分优于现有的部分开源模型;在 GenEval 基准测试中,达到了 88% 的总分,超过了部分专门的开源生成模型以及其它开源统一模型。
- 图像编辑与风格迁移:可以根据自然语言指令对图像局部进行灵活修改,仅使用较少的对齐数据,即可实现图片的风格切换,甚至转换至不同场景中;在 GEdit-Bench 上,表现与当前领先的图像编辑模型 Step1X-Edit 相当,并且超过了 Gemini 2.0。
- 空间与 3D 能力:具备实现 3D 物体旋转、虚拟环境导航(支持游戏、真实场景、艺术作品、卡通动画等场景 )、未来帧预测等世界模型基础能力,还可进行多视角合成,如生成布料展开图、3D 结构草图等。
- 长思维链推理:引入了长思维链(Chain-of-Thought,COT)模式,模型在生成之前可先 “思考”,增加长思维链推理后,在 WISE 等需要世界知识和多步复杂推理任务中的能力显著提高。
- 获取代码:通过
git clone https://github.com/bytedance-seed/BAGEL.git克隆代码仓库。
- 创建虚拟环境:运行
conda create -n bagel python=3.10 -y创建名为bagel的 Python 3.10 虚拟环境,并通过conda activate bagel激活环境。
- 安装依赖:进入 BAGEL 目录后,运行
pip install -r requirements.txt安装所需依赖,还可以根据自身 GPU 显存情况安装flash_attn,比如pip install flash_attn==2.5.8 --no-build-isolation 。
- 下载预训练检查点:使用
huggingface_hub库下载,示例代码为
from huggingface_hub import snapshot_download
save_dir = "models/BAGEL-7B-MoT"
repo_id = "ByteDance-Seed/BAGEL-7B-MoT"
cache_dir = save_dir + "/cache"
snapshot_download(cache_dir=cache_dir, local_dir=save_dir, repo_id=repo_id, local_dir_use_symlinks=False, resume_download=True, allow_patterns=("*.json", "*.safetensors", "*.bin", "*.py", "*.md", "*.txt"))
- 使用体验:
- 基于 notebook 体验:转到
inference.ipynb文件,按照其中的说明和示例进行操作体验 。
- 基于 Gradio WebUI 体验:先运行
pip install gradio安装 Gradio,对于显存 32GB 及以上的 GPU 或者多 GPU 环境,直接运行python app.py;对于 12 - 32GB 显存的 GPU,推荐使用 NF4 量化并使用中文界面,运行python app.py --mode 2 --zh 。
你可以前往 BAGEL 官网及体验入口进一步了解:
相关视频
BAGEL | 字节跳动打破模型垄断! #ai #aigc #字节跳动 #开源 #软件开发
字节跳动多模态Bagel震撼发布!能聊天P图、还懂数学 🔥今天我们深入了解字节跳动最新开源的多模态基础模型——Bagel!这款模型采用混合专家(MoE)架构,在大规模图文视频数据上训练,展现出强大的理解与生成能力,特别是在图片编辑和世界建模方面取得了显著进展。
🎬 你将学到:
1 Bagel模型核心特性与新兴能力概览
2 ComfyUI中Bagel的安装与配置指南
3 图像生成实战:从创意提示词到惊艳作品 (包括中文提示词)
4 图像编辑与风格转换:轻松实现专业级效果
5 图像理解与推理:看Bagel如何“思考”并解决问题 (如手写数学题)
#ai新星计划 #waytoagi #comfyui #字节跳动 #bagel
字节跳动推出开源多模态模型BAGEL #先知AI #科技改变生活 #软件分享
字节跳动开源全球首个多模态 BAGEL 模型,打造逆天“世界建模”能力!
字节Seed开源统一多模态理解和生成模型BAGEL #字节跳动 #seed #bagel 浪尖科技-L612
【AI焦点】字节跳动开源BAGEL大模型,内置推理链机制,先思考再行动,直面GPT-4o和Gemini 2.0!
#字节跳动BAGEL #AI开源模型 #多模态生成 #推理链机制 #图片生成
字节跳动正式开源多模态大模型——BAGEL,引爆AI圈! 作为字节自研的通用多模态基础模型,BAGEL具备强大的图文理解与生成能力,支持图像识别、视觉问答、图文生成等多种任务。开源版本支持13B参数规模,性能媲美Gemini、GPT-4V等国际主流模型,已在MME、SEED Bench等权威榜单上取得优异成绩。
BAGEL支持推理部署,训练代码与预训练模型参数均已开放,无论是研究学术,还是开发实际应用,都可直接使用!这一举措不仅展示了字节在多模态AI领域的技术实力,也将推动中国AI生态进一步走向开源与协同。
多模态是通向AGI的关键路径,BAGEL的开源为AI创新注入强大引擎。现在就试试,看看BAGEL能为你的项目带来什么改变!
#BAGEL #字节跳动AI #多模态大模型 #AI开源 #AGI时代
字节BAGEL:多模态开源 字节跳动开源多模态模型BAGEL:图文生成与编辑的新突破#字节跳动 #模型 #BAGEL #图像 @抖音小助手
开源多模态扛把子,字节Bagel模型comfyui应用 #comfyui #字节跳动 #多模态 #编辑模型
想变成什么样,你自己说了算 字节跳动最新模型——BAGEL
在图像编辑、自由形式操作、多视图合成等复杂任务中,BAGEL的定性表现显著优于现有模型,显示出其在“世界建模”等前沿方向上的潜力。
字节跳动Bagel模型,开源多模态神器 #人工智能 #AI #显卡#DeepSeek #字节跳动