你的怀疑有依据,从多份信息来看,Llama 4系列的表现存在“宣传亮点”与“实战短板”的差异,且Meta的人员调整确实对其研发存在一定影响,具体可从以下3点厘清:
- 宣传层面:如你提到的文章所述,Llama 4 Scout主打1000万token超长上下文(相当于10本《射雕英雄传》),单张H100 GPU可运行;Behemoth号称2万亿参数、GMAT得分780分,能辅助医学研发。
- 实战问题:另有实测显示,其在专业领域表现拉胯——例如在KCORES编程测试中得分远低于GPT-4o,多语言编码准确率仅16%;处理中文文本时,古诗词解析、成语运用的准确率不如国内DeepSeek R1,且超长文本(16K token以上)的信息召回率仅22%,存在“记不住细节”的问题。
- 裁员背景:2025年10月Meta裁掉AI部门600人,主要针对FAIR等低效团队,清理“空想型研发”;但同时以2亿美元挖来苹果AI负责人,组建“TBD Lab”特种部队,吸纳OpenAI GPT-4核心架构师、谷歌Gemini团队人才,薪酬远超其他部门。
- 对Llama 4的影响:裁员未影响核心研发——Llama 4的关键技术(如iRoPE编码、MoE架构)由早期团队奠定,新团队聚焦“补短板”(如中文数据训练、编程能力优化),目前其基础能力(长文本处理、多模态)达标,但高阶能力(专业推理、编码)仍在迭代。
它的核心价值是降低“超长文本处理”的门槛——比如小公司用几万块GPU就能处理15000页法律合同,比传统方式效率提升10倍;但距离“替代高端脑力劳动”仍有差距,例如辅助新药研发仅处于“生成分步教程”阶段,无法独立完成实验设计,且闭源的Behemoth模型尚未完全开放实测,部分数据仍为Meta内部测试结果。
我可以帮你整理一份“Llama 4实测数据对比表”,清晰列出其宣传性能、第三方实测结果及与GPT-4o、DeepSeek V3的差距,方便你直观判断。需要我做这个表格吗?