我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
大模型深度思考推理侧现状分析
视频
音频
原始脚本
大模型深度推理能力现状全扫描,推理侧与训练侧技术路径、现状及问题。 大模型的深度推理本质是模拟人类解决复杂问题的逻辑链,如数学计算、因果分析、多步骤决策。 当前行业主要从推理侧优化,利用外部引导让模型会用能力和训练侧优化,通过技术让模型自带能力两大方向突破。 二者各有路径、现状与瓶颈,具体如 一、推理侧优化,靠外部引导激活模型推理。 核心是 Prompt Engineering 与协作框架。 推理侧不改变模型本身参数,而是通过设计引导策略,或多智能体协作流程。 让模型在现有能力基础上,更有序、更精准的输出逻辑链,避免直接跳步或答非所问。 核心是解决简单问题不用复杂流程,复杂问题不遗漏步骤的适配性问题。 一、核心技术路径与行业现状推理侧的技术进化,本质是从单一提示到动态协作的升级。 目前已形成三类主流路径,覆盖从简单到复杂的推理场景。 路径一,基础 Prompt Engineering,单轮提示,适配简单推理,核心逻辑。 通过指令模板或思维链示例,Few Shot COT,直接告诉模型该按步骤想,无需额外工具或多轮交互。 适用于步骤固定、无需外部信息的问题,如小学数学题、简单因果分析。 具体做法,对需要步骤的问题,在提示词中加入请分三步分析。 一、先明确题干条件。 二、计算关键数据。 三、推导结论。 对容易跳步的问题加入示例。 如例,已知 A 等于3,B 等于5,求 A 加 B 乘2。 第一步算 B 乘2等于10,第二步算 A 加10等于13。 你的解题步骤,括回。 代表模型,所有具备基础逻辑能力的大模型均支持。 如 GPT 3.5、Cloud 2、文心一言、通义千问,是目前最普及的推理方式,无需额外配置,仅靠提示词即可激活。 路径二,工具增强型推理,多轮调用,适配需外部信息的推理,核心逻辑,当推理需要实时 数据、私有知识或精准计算时,如2024年某城市 GDP 同比增长多少?根据公司内部合同条款,某条款是否合法?让模型自主判断需要调用工具,并通过多轮交互完成推理。 先调用搜索 RAG 工具获取数据,再基于数据推导结 论。 具体做法,一、模型先分析用户问题,判断是否需要外部信息。 如孔子是否活着,无需工具。 2024年某城市 GDP 需要工具。 二、若需要调用指定工具,如搜索引擎、向量数据库,获取数据后,再结合数据输出推理结论。 三、若工具返回数据不完整模型可二次发起工具调用。 如搜索结果未包含某区数据,请补充查询该区域 GDP。 代表模型与产品,GPT 4加插件,如 Browse with Bing、Code Interpreter,可自主调用搜索计算工具,解决需要实时专业数据的推理问题。 阿里云通义千问工具链,支持调用企业内部 RAG 知识库、计算器适配,企业及推理场景如财务报销规 则解读,产品参数对比,讯飞星火多轮工具调用,在数学计算中,可自动调用计算器,避免计算错误,在基于计算结果推导应用题答案。 路径三,多智能体协作推理,分工协作,适配超复杂推理,核心逻辑。 将复杂推理任务拆解为多个子任务,让不同角色模型分工完成。 如小模型负责拆解问题,检索模型负责找数据,大模型负责整合结论。 模拟人类团队写作,解决单模型无法覆盖全流程的问题。 如商业方案撰写、科研论文分析。 具体做法,一,任务拆解智能体,通常是轻量模型。 如拉玛尔杠7B,将用户需求拆解为子任务。 如写一份某产品市场分析报告,拆解为一、竞品销量数据查询二、目标用户画像分析三、市场规模测算。 二、工具调用智能体。 根据子任务调用对应工具,如调用电商平台 API 查竞品销量,调用调研数据库查用户画像。 3、结论整合智能体。 大模型如 GPT 4、DeepMind CAR1,将子任务结果整合为完整逻辑链,输出最终答案。 代表案例,Meta 的 Toolformer,通过训练让模型学会调用工具的时机,并与其他模型协作完成推理。 国内,智谱清言多智能体支持自定义角色。 如分析师、数据源、编辑、分工。 完成复杂任务,如分析师拆解市场任务、数据源查数据、编辑润色报告。 开源项目 AutoGPT 通过目标设定、子任务拆解、工具调用、结果反馈的闭环,自主完成长周期推理任务,如帮我规划一场欧洲旅行,包含签证流程。 形成路线,预算计算。 二,推理测的核心问题与瓶颈问。 题一,何时用流程的判断依赖外部框架,模型自主决策弱。 目前多数场景需要人工预设规则,如所有涉及实时数据的问题,必须调用搜索,而非模型自主判断。 例如,若未预设规则,模型可能对2024年 GDP 直接输出旧数据,依赖于训练知识,而非主动调用工具。 问题二,多轮协作的容错性差,若某一环出错,如工具返回错误数据、子任务拆解遗漏,后续推理会连锁出错。 且模型难以自主修正,如搜索到错误的 GDP 数据,模型会基于错误数据推导结论,无法识别数据本身有误。 问题三,效率与成本矛盾复杂协作流程,如多轮工具调用加多智能体分工,会导致响应速度变慢。 且大模型调用成本增加,不适用于实时性要求高的场景,如客服对话。 大模型深度推理能力现状全扫描,推理侧与训练侧 技术路径、现状及问题。 二、训练侧优化,让模型自带推理能力。 核心是从数据驱动到机制优化。 训练侧通过修改模型结构、优化训练目标或改进数据方式,让模型在预训练或微调阶段就掌握推理逻辑,无需依赖外部提示即可自主输出思维链。 目前行业仍处于从模仿推理 SFT 到自主推理算法优化的过渡阶段,尚未实现一劳永逸。 一、核心技术路径与行业现状训练册的技术进化,是从靠数据为模板,到靠算法改机制的突破。 目前有四类关键路径。 路径一,监督微调 SFT。 让模型模仿推理步骤,当前最成熟。 核心逻辑,用带思维链的标注数据,如解题步骤加答案、分析逻辑加结论,微调模型,让模型学会按步骤输出。 本质是照猫画虎式的推理模仿。 具体做法,构建数据集,收集大量问题加详细推理过程加答案的数据如 数学题解题步骤,法律案例分析逻辑,微调训练。 用该数据集对预训练模型,如 LLaMA 2、GPT 3进行微调,让模型学习输入问题输出推理链输出答案的映射关系。 代表模型 Deepseek Math,用200万加数学题加解题步骤数据微调。 在中小学数学竞赛题中,可自主输出推理步骤,无需提示分步骤。 百度文心一言 V4,通过中文思维链数据集微调,在中文因果分析、逻辑推理任务中,无需额外提示即可输出分析过程。 Anthropic 的 claude 2,用长文本推理数据集,如小说情节分析、论文逻辑拆解、微调,支持自主输出长链推理。 局限性,依赖高质量标注数据,且泛化性差。 用数学题数据微调的模型,在法律推理任务中可能失效。 同时,模型仅学会模仿数据中的推理模板,遇到数据中没有的新场景,如跨领域问题,仍会跳步或出错,无法真正自主推理。 路径二,思维链预训练,CoT Pre-training,让模型在预训练阶段学推理,探索中核心逻辑。 在模型预训练阶段,而非微调阶段,就加入思维链类数数据,如百科词条的逻辑解释、学术论文的推导过程。 让模型从学习 语言规律升级为学习逻辑规律,从源头掌握推理能力。 具体做法,扩展预训练数据。 在传统文本、新闻、书籍中加入带逻辑链的文本,如维基百科中的原理解释部分、学术论文的实验设计与推导章节。 调整预训练目标,除了预测下一个 token,额外加入预测推理链连贯性的目标,如判断步骤 A、步骤 B 是否符合逻辑。 代表模型,Google Palm 2,预训练阶段加入数学推导、代码逻辑、科学原理等思维链数据,在多语言推理任务中表现优 于前代,华为盘古大模型推理版,预训练时融入工程计算、物理公式推导数据,在工业场景推理,如设备故障排查逻辑,中可自主输出分析链。 局限性,四维炼域训练数据稀缺,高质量逻辑链文本远少于普通文本,且训练成本极高,需重新训练千亿参数模型。 目前仅少数巨头 Google、华为有能力尝试。 路径三,强化学习,RALF, RAL with feedback. 让模型修正推理错误,辅助优化核心逻辑。 通过人类反馈或机器反馈,让模型在训练中知道自己错在哪,并修正推理逻辑,本质是从错误中学习。 具体做法一、生成推理结果,让模型输出某问题的推理链,如解题步骤。 二、反馈打分,由人类或评判模型对推理链打分,如步骤是否完整、逻辑是否正确。 三、强化训练,用打分结果优化模型,让模型更倾向于输出高分推理链,减少错误步骤。 代表模型 GPT 4,通过人类标注员对推理链打分的 R L H F 训练。 减少推理跳步和逻辑矛盾,如之前算错的数学题,训练后可修正步骤。 商汤日日新大模型用机器评判模型,基于高质量推理数据训练,自动对推理链打分,降低人工标注成本,提升训练效率。 局限性,反馈质量决定效果。 若人类标注员对推理逻辑的判断不统一,如法律案例的不同解读,模型会陷入混乱。 且 RL 训练容易过拟合反馈数据,遇到新问题仍会出错。 路径四,算法机制优化,从统计学预测到逻辑化推理,根本性突破方向,核心逻辑。 不依赖数据,而是通过修改 Transformer 架构或训练目标,解决模型靠概率预测 token,而非逻辑推导的本质问题,让模型具备自主探索推理路径的能力。 目前最关键的技术是多路径推理,Multi-Path Reasoning。 具体做法,以多路径推理为例。 一,多路径生成模型,对同一个问题,生成多个不同的推理路径。 如解数学题时,生成三种不同的解题思路。 二、路径评估,通过逻辑一致性判断或结果验证,筛选出正确的推理路径,如三种解题思路中哪种步骤无矛盾,结果正确。 三、强化学习,让模型更倾向于生成正确路径,逐步掌握自主选择合理推理方向的能力。 代表技术与模型,Google,verification,COVE。 模型先输出推理链,再回头检查每一步是否正确。 若发现矛盾,则修正路径。 在事实性推理,如某事件时间线中降低幻觉。 开源模型 MiniCPM 2B,通过多路径采样加逻辑打分机制,在小参数模型20亿参数中实现自主推理,无需依赖大模型。 微软 ResNet 在 Transformer 中加入推理状态跟踪模块,让模型记录已完成的推理步骤,避免重复或遗漏,适用于长链推理,如科研论文推导。 现状,这类技术仍处于实验室阶段,尚未大规模落地,多路径生成会增加训练和推理成本。 且路径评估的准确性依赖复杂的逻辑判断模型。 目前仅在数学计算、简单逻辑推理等确定性场景中有效,在模糊性问题,如商业决策分析中表现不佳。 二、训练册的核心问题与瓶颈问题。 一、自主推理尚未实现,仍依赖数据模板或局部优化。 目前最成熟的 SFT 和 RLHF,本质仍是数据驱动,模型仅学会模仿已知推理模式,无法像人类一样面对全新问题时自主探索推理路径,如 AlphaGo Zero 那样仅靠规则自主学习。 问题二,Transformer 架构的概率本质与推理逻辑存在矛盾。 模型的核心是预测下一个 token 的概率,而非基于逻辑推导。 即使输出正确推理链,也可能是概率上最可能的序列,而非逻辑上最正确的序列,导致看似有逻辑,实则靠运气的幻觉。 问题三,训练成本与效果的平衡难题,根本性的机制优化,如多路径推理、思维炼狱训练。 需要千亿级参数模型、加海量高质量数据、加超高计算资源,仅少数巨头可承担,中小公司难以跟进。 且效果提升与成本投入不成正比。 部分技术如多路径推理,成本增加10倍,效果仅提升5%。 大模型深度推理能力现状全扫描,推理测与训练测技术路径、现状及问题。 三、总结当前大模型推理的核心结论。 一、推理测加训练测混合式主流,纯训练测一劳永逸尚未实现。 目前行业普遍采用训练测打底,SFT 加基础,RLHF 加推理测优化,Prompt 加工具调用的模式。 训练让模型具备基础推理意识,推理测通过引导和工具弥补泛化性不足,如 GPT 4,Deepseek CAR。 均采用此模式。 二、推理测的核心突破点是自主决策,训练测的核心突破点是机制优化。 未来推理测需要解决模型自主判断是否用工具协作,无需人工预设规则。 训练测需要解决 Transformer 概率本质与逻辑推理的矛盾,如通过多路径推理、逻辑模块嵌入等技术,才能实现模型自主、精准、高效推理。 3短期看混合模式够用,长期看,纯训练 测突破是关键。 对于多数场景,如客服、办公、教育、训练测 SFT 加推理测工具调用,也能满足需求。 但对于高可靠性场景,如医疗诊断、法律判决、自动驾驶决策,必须依赖训练测的根本性突破,让模型具备可解释、无幻觉、自主修正的推理能力。 这也是行业未来3~5年的核心方向。
修正脚本
大模型深度推理能力现状全扫描,推理侧与训练侧技术路径、现状及问题。 大模型的深度推理本质是模拟人类解决复杂问题的逻辑链,如数学计算、因果分析、多步骤决策。 当前行业主要从推理侧优化,利用外部引导让模型会用能力和训练侧优化,通过技术让模型自带能力两大方向突破。 二者各有路径、现状与瓶颈,具体如 一、推理侧优化,靠外部引导激活模型推理。 核心是 Prompt Engineering 与协作框架。 推理侧不改变模型本身参数,而是通过设计引导策略,或多智能体协作流程。 让模型在现有能力基础上,更有序、更精准的输出逻辑链,避免直接跳步或答非所问。 核心是解决简单问题不用复杂流程,复杂问题不遗漏步骤的适配性问题。 一、核心技术路径与行业现状推理侧的技术进化,本质是从单一提示到动态协作的升级。 目前已形成三类主流路径,覆盖从简单到复杂的推理场景。 路径一,基础 Prompt Engineering,单轮提示,适配简单推理,核心逻辑。 通过指令模板或思维链示例,Few Shot COT,直接告诉模型该按步骤想,无需额外工具或多轮交互。 适用于步骤固定、无需外部信息的问题,如小学数学题、简单因果分析。 具体做法,对需要步骤的问题,在提示词中加入请分三步分析。 一、先明确题干条件。 二、计算关键数据。 三、推导结论。 对容易跳步的问题加入示例。 如例,已知 A 等于3,B 等于5,求 A 加 B 乘2。 第一步算 B 乘2等于10,第二步算 A 加10等于13。 你的解题步骤)。 代表模型,所有具备基础逻辑能力的大模型均支持。 如 GPT 3.5、Cloud 2、文心一言、通义千问,是目前最普及的推理方式,无需额外配置,仅靠提示词即可激活。 路径二,工具增强型推理,多轮调用,适配需外部信息的推理,核心逻辑,当推理需要实时数据、私有知识或精准计算时,如2024年某城市 GDP 同比增长多少?根据公司内部合同条款,某条款是否合法?让模型自主判断需要调用工具,并通过多轮交互完成推理。 先调用搜索 RAG 工具获取数据,再基于数据推导结论。 具体做法,一、模型先分析用户问题,判断是否需要外部信息。 如孔子是否活着,无需工具。 2024年某城市 GDP 需要工具。 二、若需要调用指定工具,如搜索引擎、向量数据库,获取数据后,再结合数据输出推理结论。 三、若工具返回数据不完整,模型可二次发起工具调用。 如搜索结果未包含某区数据,请补充查询该区域 GDP。 代表模型与产品,GPT 4加插件,如 Browse with Bing、Code Interpreter,可自主调用搜索计算工具,解决需要实时专业数据的推理问题。 阿里云通义千问工具链,支持调用企业内部 RAG 知识库、计算器适配,企业及推理场景如财务报销规则解读,产品参数对比,讯飞星火多轮工具调用,在数学计算中,可自动调用计算器,避免计算错误,再基于计算结果推导应用题答案。 路径三,多智能体协作推理,分工协作,适配超复杂推理,核心逻辑。 将复杂推理任务拆解为多个子任务,让不同角色模型分工完成。 如小模型负责拆解问题,检索模型负责找数据,大模型负责整合结论。 模拟人类团队协作,解决单模型无法覆盖全流程的问题。 如商业方案撰写、科研论文分析。 具体做法,一,任务拆解智能体,通常是轻量模型。 如 LLaMA 7B,将用户需求拆解为子任务。 如写一份某产品市场分析报告,拆解为一、竞品销量数据查询二、目标用户画像分析三、市场规模测算。 二、工具调用智能体。 根据子任务调用对应工具,如调用电商平台 API 查竞品销量,调用调研数据库查用户画像。 三、结论整合智能体。 大模型如 GPT 4、DeepMind CAR1,将子任务结果整合为完整逻辑链,输出最终答案。 代表案例,Meta 的 Toolformer,通过训练让模型学会调用工具的时机,并与其他模型协作完成推理。 国内,智谱清言多智能体支持自定义角色。 如分析师、数据源、编辑分工。 完成复杂任务,如分析师拆解市场任务、数据源查数据、编辑润色报告。 开源项目 AutoGPT 通过目标设定、子任务拆解、工具调用、结果反馈的闭环,自主完成长周期推理任务,如帮我规划一场欧洲旅行,包含签证流程、行程路线、预算计算。 二、推理侧的核心问题与瓶颈。问题一,何时用流程的判断依赖外部框架,模型自主决策弱。 目前多数场景需要人工预设规则,如所有涉及实时数据的问题,必须调用搜索,而非模型自主判断。 例如,若未预设规则,模型可能对2024年 GDP 直接输出旧数据,依赖于训练知识,而非主动调用工具。 问题二,多轮协作的容错性差,若某一环出错,如工具返回错误数据、子任务拆解遗漏,后续推理会连锁出错。 且模型难以自主修正,如搜索到错误的 GDP 数据,模型会基于错误数据推导结论,无法识别数据本身有误。 问题三,效率与成本矛盾,复杂协作流程,如多轮工具调用加多智能体分工,会导致响应速度变慢。 且大模型调用成本增加,不适用于实时性要求高的场景,如客服对话。 大模型深度推理能力现状全扫描,推理侧与训练侧 技术路径、现状及问题。 二、训练侧优化,让模型自带推理能力。 核心是从数据驱动到机制优化。 训练侧通过修改模型结构、优化训练目标或改进数据方式,让模型在预训练或微调阶段就掌握推理逻辑,无需依赖外部提示即可自主输出思维链。 目前行业仍处于从模仿推理 SFT 到自主推理算法优化的过渡阶段,尚未实现一劳永逸。 一、核心技术路径与行业现状训练侧的技术进化,是从靠数据为模板,到靠算法改机制的突破。 目前有四类关键路径。 路径一,监督微调 SFT。 让模型模仿推理步骤,当前最成熟。 核心逻辑,用带思维链的标注数据,如解题步骤加答案、分析逻辑加结论,微调模型,让模型学会按步骤输出。 本质是照猫画虎式的推理模仿。 具体做法,构建数据集,收集大量问题加详细推理过程加答案的数据如 数学题解题步骤,法律案例分析逻辑,微调训练。 用该数据集对预训练模型,如 LLaMA 2、GPT 3进行微调,让模型学习输入问题输出推理链输出答案的映射关系。 代表模型 Deepseek Math,用200万加数学题加解题步骤数据微调。 在中小学数学竞赛题中,可自主输出推理步骤,无需提示分步骤。 百度文心一言 V4,通过中文思维链数据集微调,在中文因果分析、逻辑推理任务中,无需额外提示即可输出分析过程。 Anthropic 的 claude 2,用长文本推理数据集,如小说情节分析、论文逻辑拆解、微调,支持自主输出长链推理。 局限性,依赖高质量标注数据,且泛化性差。 用数学题数据微调的模型,在法律推理任务中可能失效。 同时,模型仅学会模仿数据中的推理模板,遇到数据中没有的新场景,如跨领域问题,仍会跳步或出错,无法真正自主推理。 路径二,思维链预训练,CoT Pre-training,让模型在预训练阶段学推理,探索中核心逻辑。 在模型预训练阶段,而非微调阶段,就加入思维链类数据,如百科词条的逻辑解释、学术论文的推导过程。 让模型从学习 语言规律升级为学习逻辑规律,从源头掌握推理能力。 具体做法,扩展预训练数据。 在传统文本、新闻、书籍中加入带逻辑链的文本,如维基百科中的原理解释部分、学术论文的实验设计与推导章节。 调整预训练目标,除了预测下一个 token,额外加入预测推理链连贯性的目标,如判断步骤 A、步骤 B 是否符合逻辑。 代表模型,Google Palm 2,预训练阶段加入数学推导、代码逻辑、科学原理等思维链数据,在多语言推理任务中表现优于前代,华为盘古大模型推理版,预训练时融入工程计算、物理公式推导数据,在工业场景推理,如设备故障排查逻辑中,可自主输出分析链。 局限性,思维链领域训练数据稀缺,高质量逻辑链文本远少于普通文本,且训练成本极高,需重新训练千亿参数模型。 目前仅少数巨头 Google、华为有能力尝试。 路径三,强化学习,RALF, RAL with feedback. 让模型修正推理错误,辅助优化核心逻辑。 通过人类反馈或机器反馈,让模型在训练中知道自己错在哪,并修正推理逻辑,本质是从错误中学习。 具体做法一、生成推理结果,让模型输出某问题的推理链,如解题步骤。 二、反馈打分,由人类或评判模型对推理链打分,如步骤是否完整、逻辑是否正确。 三、强化训练,用打分结果优化模型,让模型更倾向于输出高分推理链,减少错误步骤。 代表模型 GPT 4,通过人类标注员对推理链打分的 R L H F 训练。 减少推理跳步和逻辑矛盾,如之前算错的数学题,训练后可修正步骤。 商汤日日新大模型用机器评判模型,基于高质量推理数据训练,自动对推理链打分,降低人工标注成本,提升训练效率。 局限性,反馈质量决定效果。 若人类标注员对推理逻辑的判断不统一,如法律案例的不同解读,模型会陷入混乱。 且 RL 训练容易过拟合反馈数据,遇到新问题仍会出错。 路径四,算法机制优化,从统计学预测到逻辑化推理,根本性突破方向,核心逻辑。 不依赖数据,而是通过修改 Transformer 架构或训练目标,解决模型靠概率预测 token,而非逻辑推导的本质问题,让模型具备自主探索推理路径的能力。 目前最关键的技术是多路径推理,Multi-Path Reasoning。 具体做法,以多路径推理为例。 一,多路径生成模型,对同一个问题,生成多个不同的推理路径。 如解数学题时,生成三种不同的解题思路。 二、路径评估,通过逻辑一致性判断或结果验证,筛选出正确的推理路径,如三种解题思路中哪种步骤无矛盾,结果正确。 三、强化学习,让模型更倾向于生成正确路径,逐步掌握自主选择合理推理方向的能力。 代表技术与模型,Google,verification,COVE。 模型先输出推理链,再回头检查每一步是否正确。 若发现矛盾,则修正路径。 在事实性推理,如某事件时间线中降低幻觉。 开源模型 MiniCPM 2B,通过多路径采样加逻辑打分机制,在小参数模型20亿参数中实现自主推理,无需依赖大模型。 微软 ResNet 在 Transformer 中加入推理状态跟踪模块,让模型记录已完成的推理步骤,避免重复或遗漏,适用于长链推理,如科研论文推导。 现状,这类技术仍处于实验室阶段,尚未大规模落地,多路径生成会增加训练和推理成本。 且路径评估的准确性依赖复杂的逻辑判断模型。 目前仅在数学计算、简单逻辑推理等确定性场景中有效,在模糊性问题,如商业决策分析中表现不佳。 二、训练侧的核心问题与瓶颈问题。 一、自主推理尚未实现,仍依赖数据模板或局部优化。 目前最成熟的 SFT 和 RLHF,本质仍是数据驱动,模型仅学会模仿已知推理模式,无法像人类一样面对全新问题时自主探索推理路径,如 AlphaGo Zero 那样仅靠规则自主学习。 问题二,Transformer 架构的概率本质与推理逻辑存在矛盾。 模型的核心是预测下一个 token 的概率,而非基于逻辑推导。 即使输出正确推理链,也可能是概率上最可能的序列,而非逻辑上最正确的序列,导致看似有逻辑,实则靠运气的幻觉。 问题三,训练成本与效果的平衡难题,根本性的机制优化,如多路径推理、思维链训练。 需要千亿级参数模型、加海量高质量数据、加超高计算资源,仅少数巨头可承担,中小公司难以跟进。 且效果提升与成本投入不成正比。 部分技术如多路径推理,成本增加10倍,效果仅提升5%。 大模型深度推理能力现状全扫描,推理侧与训练侧技术路径、现状及问题。 三、总结当前大模型推理的核心结论。 一、推理侧加训练侧混合式是主流,纯训练侧一劳永逸尚未实现。 目前行业普遍采用训练侧打底,SFT 加基础 RLHF,加推理侧优化,Prompt 加工具调用的模式。 训练让模型具备基础推理意识,推理侧通过引导和工具弥补泛化性不足,如 GPT 4,Deepseek CAR。 均采用此模式。 二、推理侧的核心突破点是自主决策,训练侧的核心突破点是机制优化。 未来推理侧需要解决模型自主判断是否用工具协作,无需人工预设规则。 训练侧需要解决 Transformer 概率本质与逻辑推理的矛盾,如通过多路径推理、逻辑模块嵌入等技术,才能实现模型自主、精准、高效推理。 三、短期看混合模式够用,长期看,纯训练侧突破是关键。 对于多数场景,如客服、办公、教育、训练侧 SFT 加推理侧工具调用,也能满足需求。 但对于高可靠性场景,如医疗诊断、法律判决、自动驾驶决策,必须依赖训练侧的根本性突破,让模型具备可解释、无幻觉、自主修正的推理能力。 这也是行业未来3~5年的核心方向。
back to top