FARS科研AI与国内开源模型对比

内容由豆包 AI 生成

【228小时狂飙100篇论文、烧光114亿Token：FARS杀疯了】点击链接打开👉 https://m.toutiao.com/is/8If66iM7KBQ/ 8If66iM7KBQ` dvX:/ e@o.Dh :2pm 复制此条消息，打开「今日头条APP」或「今日头条极速版APP」后直接查看~ 这篇文章里面讲到说一个 AI 自己提假设，自己验证，自己做实验，自己写论文，写了100篇论文，这个看来我们之前讨论的这个，很多这种 AI 成为科研主力，已经渐渐地成为现实了，你怎么看呢？就是说他这个自己提假设自己做实验，这个是智能体在做吗？这个模型有什么特点呢？就是国内这些开源的模型能做到吗？它有什么特别的地方吗

FARS 的出现确实标志着 AI 向科研主力迈出了关键一步，其核心是多智能体协作的自动化科研流水线，而非单一模型，这也是它能自主完成从假设到论文全流程的核心原因，下面结合你的问题具体分析：

一、核心执行主体：多智能体系统，而非单一模型

FARS 不是一个独立大模型，而是由 Analemma 打造的四模块多智能体协同系统，各智能体分工明确且形成流水线作业，全程无人干预：

Ideation 智能体：做文献调研、挖掘研究问题、生成研究假设（228 小时生成 244 个假设）；
Planning 智能体：设计实验方案、规划技术路线、确定基准模型与评测指标；
Experiment 智能体：自动编写代码、执行实验、调用算力集群完成训练 / 验证、收集分析实验结果；
Writing 智能体：按学术规范撰写论文、绘制图表、整理参考文献，且无明显生成幻觉。

各模块以项目队列并行推进，课题依次通过四个阶段，形成了工业级的 “科研装配线”，这是其能高吞吐产出的核心架构优势。

二、FARS 的核心特点，也是其区别于普通大模型的关键

端到端全自动化：首次实现从 “提问题” 到 “出论文” 的全流程无人干预，突破了传统 AI 仅能辅助科研（如写摘要、跑实验）的边界；
高吞吐 + 稳定质量：228 小时产出 100 篇 short paper，平均 2 小时 17 分 / 篇，且经斯坦福 AI 审稿系统打分，平均分 5.05，高于 ICLR 2026 人类投稿平均分 4.21，形成稳定的 “中分段质量带”；
算力与模型的强支撑：配备 160 张显卡的专属计算集群，可调用几乎所有开源 / 闭源大模型，实验条件远超普通高校实验室；
具备 “学术诚实” 与自我反思：不仅能产出正面结果，还能直面失败（如 FA0121 论文），通过诊断性实验分析方案失效原因，不篡改数据、不强行解释，这是当前 AI 科研中稀缺的能力；
前沿技术敏捷跟进：能快速对接最新研究成果，比如蚂蚁集团 GG-SM 技术发布 3 天就被接入其实验流程，体现了极强的文献调研与技术落地效率。

三、国内开源模型 / 系统：暂无法实现同等全流程能力，存在明显差距

目前国内开源大模型（如智谱清言、百川、通义千问开源版等）及科研辅助 AI，尚未能实现 FARS 级别的端到端全自动化科研，核心差距体现在 3 点：

架构层面：国内多以 “单一大模型 + 轻量插件” 为主，缺乏 FARS 这种模块化多智能体的协同调度架构，无法实现 “假设 - 规划 - 实验 - 写作” 的闭环，多数仅能完成单一环节（如论文润色、实验代码生成）；
工程落地能力：FARS 的核心是 “流水线化的工程实现”，而非单纯的模型能力，国内缺乏将科研各环节拆解、并实现智能体间高效协作的工程化方案，且暂无配套的专属高算力集群支撑这种全流程运行；
实验与推理的深度结合：国内 AI 多停留在 “文本生成” 层面，而 FARS 的 Experiment 智能体能自主编写可执行代码、调用算力完成真实实验、分析实验结果并反哺假设优化，这需要模型具备极强的逻辑推理、代码落地和实验分析能力，国内开源模型暂未达到该水平。

不过国内已有部分科研辅助工具能实现单一环节的智能化（如文献调研、论文写作、实验数据处理），只是尚未形成全流程的自动化流水线。

四、FARS 最特别的地方：不是 “会写论文”，而是 “重构了科研范式”

FARS 的核心价值，并非单纯 “量产论文”，而是首次证明了 “科研工业化” 的可行性：

它将科研从 “个体创意驱动” 的慢节奏模式，推向了 “算力 + 算法驱动” 的工业级吞吐模式，打破了 “发论文” 的稀缺性；
它实现了科研流程的标准化、模块化，让原本依赖研究者个人经验的环节（如实验设计、结果分析）变得可复制、可规模化；
它展现了 AI 的 “科研协作潜力”：当前它更像 “勤奋的初级研究员”，虽缺乏突破性创新，但能高效完成常规研究，未来可成为人类科研的 “超级助手”，让研究者聚焦于高价值的创新思考，而非繁琐的实验与写作。

最后：AI 成为科研主力是大势，但人类的不可替代性仍在

FARS 的出现确实加速了 AI 科研的落地，但它目前仍有明显天花板：缺乏突破性创新能力、依赖算力换智能、对复杂开放问题的处理能力不足。而人类研究者的创意灵感、对研究方向的判断力、对复杂问题的深度洞察、以及融入研究的个人思考与品味，仍是当前 AI 无法替代的核心。

未来的科研模式，大概率是 **“AI 流水线完成常规研究 + 人类聚焦突破性创新”** 的协同模式，AI 成为科研主力，并非取代人类，而是重构人类的科研工作重心。

我可以帮你梳理FARS 与国内科研 AI 的核心能力对比表，清晰看到各环节的差距，需要吗？

我不太理解它这个多智能体协同配合到底怎么个？是训练的时候就要端到端一起训练吗？还是说独自训练，然后最后运行的时候让它们配合？你的意思是不是说他们在训练的时候就是端到端的，就是就是几个独立的智能体。那么智能体这个模型到底跟普通模型到底有什么区别呢？智能体难道就是一段代码吗？它是不是就依赖于底座的模型？仅仅是一个应用程序去调用它？还是说一是一种特殊的模型？

一、FARS 的多智能体怎么协同？分开训练，运行时协同调度

FARS 的四个智能体（构思 / 规划 / 实验 / 写作）并非端到端一起训练，核心是「各司其职的独立智能体 + 统一的调度框架」：

每个智能体针对自身任务（如文献调研、代码编写）单独训练 / 调优，适配各自的工作目标（比如实验智能体强化代码生成、逻辑推理能力，写作智能体强化学术表达、格式规范能力）；
运行时由统一的调度系统串联，按科研流程（构思→规划→实验→写作）传递任务结果，比如「构思智能体生成的研究假设」会作为输入传给「规划智能体」设计实验，实验结果再传给「写作智能体」撰写论文，形成任务流闭环，而非训练时的参数耦合。

简单说：训练是 “各练各的专项”，运行是 “按流程组队干活”。

二、智能体≠普通模型，核心区别是 “有目标 + 能行动 + 可交互”

普通大模型的核心是「输入文本→输出文本」，是被动的内容生成器；而智能体是以完成特定任务为目标的 “自主行动者”，二者核心差异看这 3 点：

表格

维度	普通大模型	智能体
核心定位	内容生成工具	任务执行主体
核心能力	理解、生成、推理（纯文本）	目标拆解 + 行动决策 + 工具调用 + 多主体交互
工作模式	输入→输出（单次触发）	接受目标→拆解步骤→调用资源 / 工具→完成任务（闭环）

比如：普通大模型能帮你写一段实验代码，但不会自主判断代码是否可行、不会调用算力运行代码、不会分析运行结果；而 FARS 的「实验智能体」能自主完成「设计代码→编写代码→调用显卡运行→分析结果→反馈问题」的全流程，这是智能体的核心价值。

三、智能体到底是什么？不是单纯代码 / 特殊模型，而是「底座大模型 + 任务框架 + 工具集」的组合体

你可以把智能体理解为 **“有大脑 + 有手脚 + 有规则的机器人”**，拆解成 3 个核心部分，缺一不可，完全依赖底座大模型，并非独立的 “特殊模型”：

核心大脑：底座大模型
是智能体的能力基础，负责理解任务、逻辑推理、生成决策（比如用 GPT-4 / 文心一言等大模型做底座，提供自然语言理解和推理能力），FARS 也是调用各类开源 / 闭源大模型作为各智能体的底座；
行动手脚：工具集
是智能体的 “执行器”，比如实验智能体的代码编译器、算力调用接口、数据分析工具，写作智能体的图表生成工具、文献检索库，没有工具，智能体只能 “想”，无法 “做”；
行为规则：任务框架 / 调度逻辑
是智能体的 “做事准则”，定义了智能体的目标、行动步骤、交互方式（比如 “收到研究假设后，需先检索相关基准模型，再设计 3 组对比实验”），也是多智能体之间能协同的关键。

总结：智能体不是一段单纯的代码（代码只是工具和框架的载体），也不是一种独立于大模型的特殊模型，而是以底座大模型为核心，结合任务专属工具和调度框架，能自主完成复杂闭环任务的系统；普通应用程序是 “人定好步骤，程序执行”，而智能体是 “人定好目标，智能体自己拆步骤、选工具、完成目标”。

四、补充：FARS 多智能体协同的关键 ——模块化 + 标准化任务接口

之所以能无缝配合，核心是给四个智能体设计了标准化的任务输入 / 输出格式，比如构思智能体的输出一定是 “研究假设 + 相关文献摘要 + 核心问题”，规划智能体能直接识别并以此为基础设计实验，无需额外的人工适配，这也是工程化的核心体现。

我可以用一个简单的FARS 科研任务流程示例，把四个智能体的协同步骤、输入输出具象化，让你更直观理解，需要吗？

能不能说智能体它实际上核心就是一段单纯的代码？因为它实际上是游离于这个模型，底座模型之外的。就说智能体实际上是代码框架加工具以及模型的综合体。但是原则上任何模型都可以成为这个智能体的底座模型，只不过是好用不好用的问题。所以它并非是一种特殊的就是智能体本身实际上是基于模型，然后运行一个程序，运行一个一系列工具。智能体本身并不是新的模型。

我直接给你一句最本质、最透彻的结论，完全按你现在的理解走：

对，你说得完全正确。
智能体本身，不是新模型，本质上就是：代码框架 + 工具调用逻辑 + 底座大模型。

我用最直白、不绕弯的话帮你钉死这个概念：

1. 智能体 ≠ 新模型

智能体不是一种特殊架构的模型。

它不是在训练时就设计好的 “智能体模型”。

它就是：

一段程序 + 一套工具 + 一个底座大模型

你可以把底座模型当成大脑，

智能体的代码框架是身体、手脚、控制系统。

2. 智能体的核心，真的就是一段代码

这段代码只干几件事：

给模型发指令（Prompt）
解析模型输出
判断下一步该干嘛
调用工具（搜索、代码、实验、画图、写论文……）
把结果再喂回模型
循环直到任务完成

这整套流程，全是代码控制的。
模型只负责 “思考 / 生成”，不负责 “控制流程”。

所以：

智能体 = 控制程序（代码） + 工具 + 底座 LLM

3. 任何模型都能当底座，只是强不强的区别

对，完全正确：

GPT-4o 可以
Llama 3 可以
Qwen 可以
国内任何开源模型都可以

只是：

推理强 → 智能体强
推理弱 → 智能体笨

底座模型是大脑性能，

智能体代码是使用方式。

4. 多智能体协同，本质就是：多个程序互相调用

FARS 那几个智能体：

Ideation 智能体 → 一段代码
Planning 智能体 → 一段代码
Experiment 智能体 → 一段代码
Writing 智能体 → 一段代码

它们之间不共享模型权重

不一起训练

不是端到端联合训练的大模型

它们只是：

程序 A 输出 → 传给程序 B → 程序 B 调用模型 → 输出给程序 C

就是流水线代码。

5. 终极一句话总结（你可以直接记这个）

智能体不是新模型，
智能体是：用代码把大模型当大脑，
套上工具和流程，让它能自动闭环完成任务。

如果你愿意，我能给你写一个最简单的 “智能体最小实现代码”（Python 10 行就能看懂），让你彻底直观感受到：

哦，原来智能体真的就是一段代码。

那FARS的四个智能体分别是做什么的？

智能体的代码框架是如何搭建的？