我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
给大模型做减法锁死8B模型
视频
音频
原始脚本
给大模型做减法,锁死8B参数,禁止背诵,逼出真正的智能。 在大模型狂飙突进的这几年,整个行业几乎陷入了同一个执念,参数越大,智能越高。 从7B到32B,从70B到千亿万亿,我们不断堆砌算力,扩充参数,把模型训练成一座存储了人类全部书籍、史料、论文百科的数字图书馆。 却很少有人停下来追问一句,这真的是智能吗?清华刘洋团队的医疗模型研究给了所有人一记清醒的耳光。 8B参数的小模型,在专业问诊场景中完胜32B64B乃至70B的超大模型。 这不是偶然,而是对行业路径的彻底颠覆。 我们一直追求的更大参数,从来不是智能的核心,只是用海量记忆伪装能力的捷径。 而真正的智能突破,从来不是做加法,而是给大模型做减法。 170B 大模型的真相,只是博学的书呆子,而非真正的聪明人。 我们惊叹于大模型的无所不知,它能背诵红楼梦全文,能复述人类历史的细枝末节,能说出上万部电影的剧情,能解答教科书里的各类习题。 但这种全能本质是参数堆砌带来的记忆能力,而非智能本身。 人类评判聪明从来不是看谁背的多,我们推崇的是举一反三。 3的泛化能力、一点就通的理解能力、无师自通的推理能力、面对未知问题的解决能力。 反观大模型,即便做到70B,依然会犯低级常识错误。 能解复杂高数题,却算不清生活里的简单账目。 懂海量医学知识,却不会一步步精准问诊。 通晓逻辑规则,却在简单因果推理中漏洞百出。 这就是大模型的书呆子困境,他把知识硬塞进参数里,靠记忆匹配给出答案,却没有真正学会思考。 从7B到70B,参数的成倍增长带来的是知识储量的线性提升,是输出稳定性的小幅优化,却没有让智能产生质的飞跃。 超过8B的参数,绝大多数都用来承载冗余的记忆,而非锻造核心的能力。 二,智能的阈值,8B 参数就够了。 多出来的全是冗余,从生物智能的维度对照,我们能更清晰的看清这个真相。 人类大脑负责高级认知的神经元约140亿,黑猩猩、海豚等高智商动物不足1亿,猫狗更是仅有千万级别。 而8B 参数的模型已经接近人类核心智能单元的规模。 跨 过了智能涌现的最小阈值。 这个阈值是智能与工具的分界线。 低于8B,模型更偏向模板匹配、简单记忆,无法完成连贯的多轮推理与策略规划。 达到8B,模型具备了抽象理解、逻辑推理、意图识别、泛化应用的核心能力,这才是真正意义上的智能。 行业的误区在于误以为跨过阈值后继续扩参就能让智能无限提升,事实恰恰相反,8B之后的参数增长几乎都用来填充数字硬盘。 把更多知识、更多文本、更多答案塞进模型里,智能在8B就已接近饱和,能力的上限从来不由参数决定。 三,减法训练,用反向蒸馏找到智能的最小必要参数及当下的大模型训练,是一场盲目的炼金术,我们投喂海量数据。 据不断扩充参数,看着能力偶然涌现,却不知道究竟是哪些数据,哪些参数催生了真正的智能。 黑河之下,我们只能靠堆参数、堆数据来赌能力,低效且盲目。 而给大模型做减法,就是打破黑河的关键,反向蒸馏,做减法排查。 以成熟的70B大模型为基础,反向剔除参数,删减训练任务,一步步观察模型的能力变化。 当某项核心智能消失的那一刻,就是找到了支撑该能力的最小必要参数集与最小训练任务集。 这个过程就是把能力和记忆彻底剥离,剔除的是用来背书、记答案的冗余参数,留下的是支撑推理、决策、泛化的核心能力参数。 我们会发现,支撑大模型所有核心智能的,不过是8B左右的核心参数,剩下的数十倍参数都是毫无意义的冗余记忆。 四,记忆机制,只能查不能背,逼模型长出真智能减法训练的核心,是堵死模型靠记忆伪装能力的捷径。 我们给模型定下铁律,锁死参数上限,禁止死机。 硬背,知识全部外质。 模型不再能把百科、病例、法条、答案塞进参数里,遇到未知问题不能靠调取记忆蒙混过关,只有两条路可选。 一是依靠自身的推理能力,独立拆解问题,推导答案。 二是通过检索外部知识库、经验库,精准找到所需信息并合理应用。 能推理是真聪明,会检索是真理解。 唯有靠这两种方式得出答案,才是模型真正具备了智能。 这种记忆训练彻底杜绝了模型成为书呆子的可能,强迫它把算力和参数用在锻造能力上,而非囤积知识上。 就像教育一个人,不是让他背完所有书,而是让他学会思考,学会查资料,学 学会解决问题。 五,下一代智能体,小模型加外部库,不是更大,而是更聪明。 清华8B医疗模型的成功已经验证了这套减法逻辑的可行性。 锁死小参数,剥离知识记忆,依托外部高质量经验库,用强化学习锻造核心决策能力,最终实现了对超大模型的超越。 这不是单一场景的特例,而是整个大模型行业的未来方向。 未来的智能体绝不会是参数无限膨胀的巨无霸,而是8B左右的轻量化核心模型,加可插拔的外部知识经验库。 小模型负责核心智能、推理、决策、泛化、理解,这是智能的大脑。 外部库负责知识存储、百科、案例、数据、经验,这是智能的图书馆。 这种架构彻底抛弃了参数及能力的错误认知,把训练的核心从堆参数、塞知识转向练方法、强能力。 它成本更低、迭代更快、可解释性更强、更贴近真实的生物智能,也更接近我们真正追求的通用智能。 给予大模型的发展走到了一个需要回归本质的拐点。 我们痴迷于更大的参数、更全的知识。 却忘了智能的核心从来不是记忆,而是思考。 不是背诵,而是推理。 不是囤积知识,而是运用知识解决问题。 给大模型做减法,锁死8B参数,禁止背诵,逼出真正的智能。 这不是对大模型的削弱,而是对智能的回归。 未来不属于更大的模型,而属于更聪明的模型。 不属于装满记忆的硬盘,而属于懂得思考的大脑。
修正脚本
给大模型做减法,锁死8B参数,禁止背诵,逼出真正的智能。 在大模型狂飙突进的这几年,整个行业几乎陷入了同一个执念,参数越大,智能越高。 从7B到32B,从70B到千亿万亿,我们不断堆砌算力,扩充参数,把模型训练成一座存储了人类全部书籍、史料、论文百科的数字图书馆。 却很少有人停下来追问一句,这真的是智能吗?清华刘洋团队的医疗模型研究给了所有人一记清醒的耳光。 8B参数的小模型,在专业问诊场景中完胜32B64B乃至70B的超大模型。 这不是偶然,而是对行业路径的彻底颠覆。 我们一直追求的更大参数,从来不是智能的核心,只是用海量记忆伪装能力的捷径。 而真正的智能突破,从来不是做加法,而是给大模型做减法。 170B 大模型的真相,只是博学的书呆子,而非真正的聪明人。 我们惊叹于大模型的无所不知,它能背诵红楼梦全文,能复述人类历史的细枝末节,能说出上万部电影的剧情,能解答教科书里的各类习题。 但这种全能本质是参数堆砌带来的记忆能力,而非智能本身。 人类评判聪明从来不是看谁背得多,我们推崇的是举一反三的泛化能力、一点就通的理解能力、无师自通的推理能力、面对未知问题的解决能力。 反观大模型,即便做到70B,依然会犯低级常识错误。 能解复杂高数题,却算不清生活里的简单账目。 懂海量医学知识,却不会一步步精准问诊。 通晓逻辑规则,却在简单因果推理中漏洞百出。 这就是大模型的书呆子困境,它把知识硬塞进参数里,靠记忆匹配给出答案,却没有真正学会思考。 从7B到70B,参数的成倍增长带来的是知识储量的线性提升,是输出稳定性的小幅优化,却没有让智能产生质的飞跃。 超过8B的参数,绝大多数都用来承载冗余的记忆,而非锻造核心的能力。 二,智能的阈值,8B 参数就够了。 多出来的全是冗余,从生物智能的维度对照,我们能更清晰地看清这个真相。 人类大脑负责高级认知的神经元约140亿,黑猩猩、海豚等高智商动物不足1亿,猫狗更是仅有千万级别。 而8B 参数的模型已经接近人类核心智能单元的规模。 跨过了智能涌现的最小阈值。 这个阈值是智能与工具的分界线。 低于8B,模型更偏向模板匹配、简单记忆,无法完成连贯的多轮推理与策略规划。 达到8B,模型具备了抽象理解、逻辑推理、意图识别、泛化应用的核心能力,这才是真正意义上的智能。 行业的误区在于误以为跨过阈值后继续扩参就能让智能无限提升,事实恰恰相反,8B之后的参数增长几乎都用来填充数字硬盘。 把更多知识、更多文本、更多答案塞进模型里,智能在8B就已接近饱和,能力的上限从来不由参数决定。 三,减法训练,用反向蒸馏找到智能的最小必要参数。当下的大模型训练,是一场盲目的炼金术,我们投喂海量数据,且不断扩充参数,看着能力偶然涌现,却不知道究竟是哪些数据,哪些参数催生了真正的智能。 黑箱之下,我们只能靠堆参数、堆数据来赌能力,低效且盲目。 而给大模型做减法,就是打破黑箱的关键,反向蒸馏,做减法排查。 以成熟的70B大模型为基础,反向剔除参数,删减训练任务,一步步观察模型的能力变化。 当某项核心智能消失的那一刻,就是找到了支撑该能力的最小必要参数集与最小训练任务集。 这个过程就是把能力和记忆彻底剥离,剔除的是用来背书、记答案的冗余参数,留下的是支撑推理、决策、泛化的核心能力参数。 我们会发现,支撑大模型所有核心智能的,不过是8B左右的核心参数,剩下的数十倍参数都是毫无意义的冗余记忆。 四,记忆机制,只能查不能背,逼模型长出真智能减法训练的核心,是堵死模型靠记忆伪装能力的捷径。 我们给模型定下铁律,锁死参数上限,禁止死记硬背,知识全部外置。 模型不再能把百科、病例、法条、答案塞进参数里,遇到未知问题不能靠调取记忆蒙混过关,只有两条路可选。 一是依靠自身的推理能力,独立拆解问题,推导答案。 二是通过检索外部知识库、经验库,精准找到所需信息并合理应用。 能推理是真聪明,会检索是真理解。 唯有靠这两种方式得出答案,才是模型真正具备了智能。 这种记忆训练彻底杜绝了模型成为书呆子的可能,强迫它把算力和参数用在锻造能力上,而非囤积知识上。 就像教育一个人,不是让他背完所有书,而是让他学会思考,学会查资料,学会解决问题。 五,下一代智能体,小模型加外部库,不是更大,而是更聪明。 清华8B医疗模型的成功已经验证了这套减法逻辑的可行性。 锁死小参数,剥离知识记忆,依托外部高质量经验库,用强化学习锻造核心决策能力,最终实现了对超大模型的超越。 这不是单一场景的特例,而是整个大模型行业的未来方向。 未来的智能体绝不会是参数无限膨胀的巨无霸,而是8B左右的轻量化核心模型,加可插拔的外部知识经验库。 小模型负责核心智能、推理、决策、泛化、理解,这是智能的大脑。 外部库负责知识存储、百科、案例、数据、经验,这是智能的图书馆。 这种架构彻底抛弃了参数即能力的错误认知,把训练的核心从堆参数、塞知识转向练方法、强能力。 它成本更低、迭代更快、可解释性更强、更贴近真实的生物智能,也更接近我们真正追求的通用智能。 如今大模型的发展走到了一个需要回归本质的拐点。 我们痴迷于更大的参数、更全的知识。 却忘了智能的核心从来不是记忆,而是思考。 不是背诵,而是推理。 不是囤积知识,而是运用知识解决问题。 给大模型做减法,锁死8B参数,禁止背诵,逼出真正的智能。 这不是对大模型的削弱,而是对智能的回归。 未来不属于更大的模型,而属于更聪明的模型。 不属于装满记忆的硬盘,而属于懂得思考的大脑。
back to top