我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
从终结者芯片到视频AI
视频
音频
原始脚本
从终结者芯片到视频 AI 再到代码大模型,一场关于增量的技术顿悟。 闲暇时翻出收藏多年的终结者2正版 DVD 那些被删减的幕后花絮依旧让人着迷。 片中被卡梅隆剪掉的经典桥段,拆开 TP800 头颅波动学习开关,让机器人从只读模式切换为自主学习,像极了如今 AI 技功能的开关设计。 打开则记录偏好,沉淀上下文,关闭则回归只读状态。 科幻电影的脑洞早已悄然照进现实的 AI 产品细节里。 而这部1991年的经典之作,更藏着一个朴素却极致的工程智慧。 用蓝生姐妹替代 CG 渲染镜面镜头,舍弃复杂算力,以最小成本实现最优效果。 这种抓核心、弃冗余的思路,也恰好串起了当下视频生成与代码大模型的技术本质。 过去常说,A picture is worth a thousand words 一幅图的信息量等同于千言万语,放在 AI token 计量里,这个比喻精准的惊人。 原始图像的 token 量本就是文字的上千倍,30帧每秒的视频更是达到文字的万倍以上。 如此庞大的数据量,才让视频大模型训练看似遥不可及。 但行业早已用最直白的逻辑破解难题,借鉴视频编码的 I 帧、P 帧、B 帧机制,以关键 I 帧为锚点,只训练帧间的变化量,而非逐帧生成完整画面。 I 帧作为完整独立的核心画面,承担框架约束作用。 模型只需填充中间 P 帧、B 帧的差异信息,再结合隐空间压缩,直接将视频 token 量从文字的万倍级骤降至几十到几百倍级,实现几何级数的优化。 这不是复杂的技术玄学,而是人人都能想通的常识。 抓牢核心状态,只处理增量变化,就能极致压缩信息量。 这套核心状态加增量更新的逻辑,从视频生成跨界到代码大模型,更是直指行业最前沿的突破方向。 当下编程模型虽能支持100K级别的上下文窗口,但面对兆集体量的工程代码,全量输入依旧不现实。 多数模型修改代码时习惯重写整段甚至整个文件,看似完整,实则暴露了对代码结构的理解不足,只能生成看似合理的文本。 无法精准聚焦修改目标,既消耗大量 token,又容易乱改无关代码,让程序员不敢直接复用。 而真正具备高阶代码理解能力的模型,理应做到四件事。 看懂现有代码结构、精准定位修改位置、输出最小必要改动、不破坏格式、不产生副作用。 只输出增量变化,恰恰是模型思路清晰的证明。 就像人类内程序员修改代码,绝不会重写整个文件,只调整关键几行。 这一思路的极致形态就是直接生成 Git Diff,代码领域最小的增量表达方式。 尽管 Diff 的可读性受算法影响,人类程序员的奇技淫巧也能做出更精简的修改。 但从信息熵角度,Diff 已将增量信息量压缩至接近极限,是代码模型训练的最高目标之一。 即便退一步,仅实现精准修改目标行代码,也已是顶级的能力体现,更能让 Token 消耗再降一个数量级。 从终结者二的幕后巧思,到视频 AI 的 IP 真训练,再到代码大模型的 DF 增量修改,看似跨度极大的领域,底层逻辑却高度统一。 舍弃全量冗余,锚定核心状态,专注增量优化。 视频生成靠增量把万倍级信息量拉回可控范围。 代码模型靠增量突破上下文瓶颈,降低 token 消耗。 原本图像与文字在 token 量上的巨大差距,也在双向的增量优化中不断缩小。 这场从科幻闲聊延伸到技术前沿的思考,没有晦涩的专业壁垒,全是源于常识的顿悟。 最顶尖的技术突破往往并非堆砌算力与复杂度,而是回归最朴素的逻辑,抓核心,减冗余,做增量。 就像当年拍摄终结者镜面镜头不用 CG,如今训练 AI 不逐帧不重写,大道至简的智慧始终是推动技术前行的底层动力。 而当视频 AI 与代码模型都向着极致增量不断逼近,一个更高效更精更贴近人类思维的 AI 时代也正加速到来。
修正脚本
从终结者芯片到视频 AI 再到代码大模型,一场关于增量的技术顿悟。 闲暇时翻出收藏多年的终结者2正版 DVD 那些被删减的幕后花絮依旧让人着迷。 片中被卡梅隆剪掉的经典桥段,拆开 TP800 头颅拨动学习开关,让机器人从只读模式切换为自主学习,像极了如今 AI 技术功能的开关设计。 打开则记录偏好,沉淀上下文,关闭则回归只读状态。 科幻电影的脑洞早已悄然照进现实的 AI 产品细节里。 而这部1991年的经典之作,更藏着一个朴素却极致的工程智慧。 用孪生姐妹替代 CG 渲染镜面镜头,舍弃复杂算力,以最小成本实现最优效果。 这种抓核心、弃冗余的思路,也恰好串起了当下视频生成与代码大模型的技术本质。 过去常说,A picture is worth a thousand words 一幅图的信息量等同于千言万语,放在 AI token 计量里,这个比喻精准得惊人。 原始图像的 token 量本就是文字的上千倍,30帧每秒的视频更是达到文字的万倍以上。 如此庞大的数据量,才让视频大模型训练看似遥不可及。 但行业早已用最直白的逻辑破解难题,借鉴视频编码的 I 帧、P 帧、B 帧机制,以关键 I 帧为锚点,只训练帧间的变化量,而非逐帧生成完整画面。 I 帧作为完整独立的核心画面,承担框架约束作用。 模型只需填充中间 P 帧、B 帧的差异信息,再结合隐空间压缩,直接将视频 token 量从文字的万倍级骤降至几十到几百倍级,实现几何级数的优化。 这不是复杂的技术玄学,而是人人都能想通的常识。 抓牢核心状态,只处理增量变化,就能极致压缩信息量。 这套核心状态加增量更新的逻辑,从视频生成跨界到代码大模型,更是直指行业最前沿的突破方向。 当下编程模型虽能支持100K级别的上下文窗口,但面对兆级体量的工程代码,全量输入依旧不现实。 多数模型修改代码时习惯重写整段甚至整个文件,看似完整,实则暴露了对代码结构的理解不足,只能生成看似合理的文本。 无法精准聚焦修改目标,既消耗大量 token,又容易乱改无关代码,让程序员不敢直接复用。 而真正具备高阶代码理解能力的模型,理应做到四件事。 看懂现有代码结构、精准定位修改位置、输出最小必要改动、不破坏格式、不产生副作用。 只输出增量变化,恰恰是模型思路清晰的证明。 就像人类程序员修改代码,绝不会重写整个文件,只调整关键几行。 这一思路的极致形态就是直接生成 Git Diff,代码领域最小的增量表达方式。 尽管 Diff 的可读性受算法影响,人类程序员的奇技淫巧也能做出更精简的修改。 但从信息熵角度,Diff 已将增量信息量压缩至接近极限,是代码模型训练的最高目标之一。 即便退一步,仅实现精准修改目标行代码,也已是顶级的能力体现,更能让 Token 消耗再降一个数量级。 从终结者二的幕后巧思,到视频 AI 的 IP 帧训练,再到代码大模型的 DF 增量修改,看似跨度极大的领域,底层逻辑却高度统一。 舍弃全量冗余,锚定核心状态,专注增量优化。 视频生成靠增量把万倍级信息量拉回可控范围。 代码模型靠增量突破上下文瓶颈,降低 token 消耗。 原本图像与文字在 token 量上的巨大差距,也在双向的增量优化中不断缩小。 这场从科幻闲聊延伸到技术前沿的思考,没有晦涩的专业壁垒,全是源于常识的顿悟。 最顶尖的技术突破往往并非堆砌算力与复杂度,而是回归最朴素的逻辑,抓核心,减冗余,做增量。 就像当年拍摄终结者镜面镜头不用 CG,如今训练 AI 不逐帧不重写,大道至简的智慧始终是推动技术前行的底层动力。 而当视频 AI 与代码模型都向着极致增量不断逼近,一个更高效更精准更贴近人类思维的 AI 时代也正加速到来。
back to top