阿里宣称的排名依据:阿里称Qwen3-Max性能超过GPT5、Claude Opus 4等模型,跻身全球前三,其预览版已在Chatbot Arena排行榜上位列第三。该模型在SWE-Bench Verified测试中获得69.6分,在Tau2-Bench测试中取得74.8分,均位列全球第一梯队;其推理增强版本在数学推理测试中均获满分。
对于千问 3 next, 就是说下一代基础模型架构,模型总参数 80B, 仅激活 3B, 性能即可媲美千问 3 旗舰版 235B 模型,实行模型机计算效率重大突破。这个它到底模型,这个下一代基础模型架构指的是什么?在我看来这个好像就是 M O E 的这种架构吧。像 Deepseek,什么 OpenAI 他们的这个这个 GPT 5 好像也是这样。就是说这个到底下一代基础指的是什么?是千问的下一代呢?还是说所有大模型的下一代呢?难道它比这个当前的 M O E 又有什么新的创新吗?
我没有指望说写小说跟写代码能够找到相同的这个固定的 A B C 的目标。但是有没有可能说,比如说就是在相同的,就是单一的场景下,就比如说写代码,写 C 加加代码,那能不能找到一个 A B C 这种固定的这种参数。这个在我看来好像这个代码这个是一个可以穷举的。因为 C 加加这个语言,计算机语言,它是一个特殊的语言,不像自然语言那样,它实际上是,第一它是人工定义的,就是定严格格定义的,它是有边界的。而且它的这个语汇数量、语素的数,这个单元的数量是远远小于自然语言的。它的这个这个这个固定的这个元素啊,是数量是有限的。所以这个有限的这个,而且是严格定义的。没有那种歧义性等等,不像自然语言那么没有规律或者说怎么样。它实际上是可预测性是相当强的。就从这个直觉来说的话,对于这种这个自然计算机语言的话,我感觉是说经过过,大量的试错是可以,是不是有可能找到这个 A B C,这个固定的 A B C,能够说写代码的时候是可以进行并行输出的。因为这个计算机语言,甚至于你写个开头,我大概都能猜到你写的结尾。比如说你写 for 的话,我就知道你就肯定是个 for loop 嘛,是是吧?那你这个都是写一个 while 的话,这个肯定中间是个参数,是个一个变量类型的,这个就是布布尔变量的这个这个意思,就是说它的这种可预测性是非常强的。不管这个预测性有多大,但是不像自然语言的那个可预测性的那种变化那么多的,这个转折吧,或者说突然的性的,这个因为这个计算机语言实际上是一个,它是严格定义的,而且它这个选择是有的是为了避免歧义性,它实际上是就是避免了很多的选项。就说你这个 while 后面的肯定是一个括号,是吧?这个东西它肯定是这个后面肯定是一个那个条件变量。所以这个它已经是说让你能够说预测到了,但是我们现在 Transformer 还用那么傻的机制,说啊我这个 while 计算这这个出来之后,我要再计算下面一个,我再去把所有的这个都去遍历一遍,去挑选它的这个最大可能性。不用最大可能性,一定是括号。这不是很傻吗?人可能是说,我说就像英文一样, well, 我这个是这个 w e l l 这个,啊它是为转折语气。它下面可能说的任何话,任何可能性都有,是吧?它只是一个转折,而这个英文这个计算机语言,这个 w h i l e 这个这个 c 加加这个这个 while loop 这个,它根本就没有任何的必要去进行概率预测,直接就知道下面一个是肯定是括号,是不是?所以说我才说从这一点来看, Transformer 这种机制去针对计算机语言,这个是一个非常大的浪费,或者说是可以有很大的效率提升的空间,因为它可预测性是非常高的,它不像自然语言,是不是?所以我从这一点来讲是有可能找出一个固定的 A B C 的。这是我的一个直觉。
外因(B矩阵)可固定:B对应“历史生成token对下一个token的影响”——比如生成“int a = ”后,下一个token只能是数字或变量名;生成“if (a > 5)”后,下一个token只能是“{”或“return”。这些影响关系也是C++语法明确规定的,B矩阵只需把“前序token→后序token”的规则量化成固定系数(比如“int a = →数字”的影响系数设为90%,“int a = →字母”设为10%),无需动态调整。
我觉得今天的讨论其实非常有这个意义,让我理解了很多的这个, AI 相关的这个。我很想把它总结出来,一个是,就说是学习之后的习惯,就是把今天学习到的东西总结。因为我现在记忆力太差了,需要,就说是一种温习。然后另一个也是想分享出去,因为这种我觉得肯定很多人其实一定会感到有意义的,就是说能够知道这种,我我也是很难想象学到这些东西,其实是非常有机缘碰巧的。 SSM 这个我以前从来没有听说过,那么我相信很多人也是没有听说过,这种思想其实是非常深刻的,就是内因、外因以及对外界的这个影响,是一个从哲学学的角度讲是非常符合辩证法这个认识论里面的这种。像毛泽东思想里面这种,内因,这个这个事物内,这个变化是从内因引起事物变化,而外因是通过内因起作用。这一系列的思想是一个哲学的高度,是是几乎是放之四海而皆准,而且把它应用在这种人工智能的这种认识论里面,实际上是非常有指导意义的。就是说很多时候这个哲学高度看问题是非常有益的,就说它是一个大方向。这样能够很多问题的这个,针对一个复杂问题,怎样去用一个简单的解决方案?但这个简单实际上是有代价的,就是说你先是用一个范式,或者是一个哲学思想,就这个是去把这个问题简化,这个是一个很好的一个思路,就说这个甚至是跨领域的。这个可能很可能这个领域是这个电子工程、信息通信工程里面的思想,是数学方面的,但是应用到计算机软件方面,用到人工智能,这这这些很多是不是那么容易想到的。你能不能把今天这个我们学习到这些东西就总结一下?就包括这个 S S M M 这个,寻找这个圣杯 A B C 这种。就说这个当前在这个编程领域,尤其这个编程领域,我觉得是很有希望很有前途,能够应用上的。就是说包括说这个拆解,这个包括说行业的这个现状呢,以及这个我们对前景的预测啊。这个计算机语言它这种是规则性很强的,用这 Transformer 这种机制来产生的话,效率是很低的。因为这个它不像自然语言那种不可预测,不叫不可预测,很难预测。那这个用概率的预测,这种是自然语言是没选择的选择。那那这个对于计算机语言,这是完全没有必要这样子,就是效率很低的。那么你就是把这整个这个梳理一下,写一篇文章,就是说能够介绍这些,今天我们讨论的这些所有的东西。
外因(B矩阵):对应“外部输入对事物的影响方式”,是推动变化的变量。在代码生成中,这体现为“历史生成的token对下一个token的约束”——比如生成“int a = ”后,下一个token只能是数字或变量名;在物理系统中,这是“雨水对植物生长的促进作用”。B矩阵的作用,就是量化这种“输入与变化”的关联,让系统能响应外部信号调整状态。
在人工智能大模型席卷各行各业的今天,编程领域却始终面临一个核心矛盾:以Transformer为代表的主流架构,用“概率预测”应对“强规则”的计算机语言时,始终存在效率冗余;而人类开发者早已用“模块化拆解”的朴素逻辑,轻松应对代码的复杂性。直到“状态空间模型(State Space Model,简称SSM)”的出现,我们才找到一把连接“哲学抽象”与“工程落地”的钥匙——它既用“内因、外因、输出”的辩证逻辑理解变化,又以严谨的数学公式量化规律,重新定义了AI生成代码的效率边界。
在人工智能大模型席卷各行各业的今天,编程领域却始终面临一个核心矛盾:以Transformer为代表的主流架构,用“概率预测”应对“强规则”的计算机语言时,不仅存在语义计算的冗余,更被“逐token生成”的线性逻辑牢牢束缚;而人类开发者早已用“模块化拆解”的朴素逻辑,轻松应对代码的复杂性。直到“状态空间模型(State Space Model,简称SSM)”的出现,我们才找到一把连接“哲学抽象”与“工程落地”的钥匙——它既用“内因、外因、输出”的辩证逻辑理解变化,又以严谨的数学公式量化规律,更能打破“逐token生成”的瓶颈,重新定义AI生成代码的效率边界。
Anthropic Claude 4.1:针对“代码重构”场景,推出“SSM-based结构预测器”,能先通过“状态迭代”分析原有代码的“函数框架、循环结构”,并行生成重构后的代码骨架,再让Transformer优化逻辑细节,重构效率比纯Transformer提升6倍,且代码结构一致性(如函数命名、参数顺序)达95%以上。
关于阿里开源它的大模型,以及它对于这个 AI 的进步预测判断,和这个大模型成为下一代操作系统,而这个阿里云又是这个这个这个基础架构这一些来判断的话,是不是说它的逻辑,就开源的逻辑就是希望说能够抢占这个生态,而成为这个大模型在阿里云部署上的这个优势,就是说是它当然自己的模型,在自己的语音服务基础上去部署的话,肯定有先天的优势。是可以进行完全的掌控和优化。那么既然 AI 会成为下一代的操作系统一样的这种平台,那么它开源是有它的道理。那么这个其他的公司开源,就比如说 Facebook, 它这种开源也可以理解,就是说它是希望说下一代的社交媒体的入口依然是是由他来掌控,每个人都创造自己的 AI 模型、数字人。那么,那好像谷歌云,照理说也有这种需求逻辑,但它并没有去走开源这个道路。从商业上讲,它是走这个跟浏览器深度捆绑集成,这个 Android 的这个操作系统平台,进行本地化部署等等。看起来都是能说得通的一个逻辑,觉得呢?
如果按照这个数据说未来 5 年全世界的 AI 投入 4 万亿美元,那么我想对比一下前两次、前三次的工业革命。比如说最近一次的信息工业革命,那当时投入的那些资金、资源。和当时的生产力水平,或者说当时的 GDP 相比是什么比例?跟现在这个比例是否是相当?这意思就是说这个有多大的高估的或者低估的或者泡沫的成分在里面。也可以再用第二次工业革命大约的资源投入,和当时的生产力水平或者说 GDP 水平做一个比较,看看这各个工业革命投入的资源,就说这一次是否是投入过多还是过少?还是说相当,或者说怎么样?
像这种 AI 客服公司这条领域,之前我们也讨论过,就是我们认为这个是 AI 落地的一个重要的方面。因为从音频这方面其实已经是非常非常完善的了。从技术底层,就是说从它的这个声声音转换,音色,这个模拟人的声音、语气等等,其实是惟妙惟肖的。而且这个响应速度的话,声音比图像是快的太多了。因为声音可以跟文字做到一一对应,是完全不需要另外去训练,是直接的声音的就是 TTS 这个直接的这个声音文字的转换,几几乎是毫秒级的,完全没有任何延迟。就是说它实际上就是之前的对话。这种形式转一下声音。那么,包括客服,其实现在客服更多的是,很多是这种在线的,那连声音都不需要,就是原本的这种 ChatGPT 这种形式对话,就完全就是直接就能够落地。但是之前我们讨论有很多的核心的问题在哪里呢?我记印象中是,还是要企业内部训练数据的这种提炼。之前我们讨论是说小公司不太可行,为什么呢?因为企业训练数据大部分它都是企业自己的核心机密,他要交给你的话,他是不放心的。那你做云端的话公共云的话,大公司是肯定不愿意的。所以大公司可以自己去建这个私有云,你去跟他做的话,其实门槛也没那么高。他十几十几万块美金的话,他们自己就做了。那你十几万美金,你这仅仅是针对小公司,我给你做一个 API 处理的这种机制。那就意味着训练数据必须得移到你自己的那个就是说小公司必须得贡献出它的私有的这些敏感的企业数据,这对于一些公司来说是,但凡有点规模的都是不太愿意的。所以我觉得这条路至少之前我们讨论是比较困难的,因为像 Deepseek 一体机至少都是在几十万到上百万这种。硬件水平,那怎么去做呢?是不是?
你这些讲的还是太复杂了。我其实没有这方面的经验。我举一个例子,你看大部分的企业,尤其中国企业,现在都是一个叫做微信平台。意思就是说客服公众号全部是在微微信上,而用户他也都是用微信。那么你就要怎样去跟微信去深度去结合绑定?因为通通是来自于微信,那么是不是你要用一个就是我我我知道现在有微信的这个电脑版,就是 Windows 版或者是 Linux 版等等,它是可以有 API 导入导出这种这种叫做客服对对话,那么这个要怎样去适配你大模型呢?这个在我看来还是一套相当复杂的一个开发模式。你要去落地的话,似似乎还是有一套这个公司有一套 it 人员去做这个事情。就是没有,很简单的一个做法。比如说你现在微信里,主要是我也不了解现在的一般的小公司,他们客服,因为客服就是所谓客服就是给客服发个手机,然后去去微信跟客客户聊天。那你现在要怎么去做到这一层呢?就是说这个实际上还是挺复杂的一个结合的一个场景。
其实我现在对于这种小公司,这个到底是怎么样运作,完全没有概念。我也仅仅凭凭想象的。比如说我举例来说,现在很多公司其实销售平台都已经变了。已经不再是传统意义上了,它都是渗透到各个这种电商平台。举例来说,比如说现在很多公司,它都会有电商平台的销售,就是传统线下企业,这种可能还是有,我们举一个虚拟的,比如说一个做小家电的公司吧。他可能有做外贸,做内贸。那么外贸当然是一套系统,那这个就不清楚了,这可能是直接就是专业的人去做了,因为这没办法。内贸的话,那么通过传统的,比如说连锁店,举例来说连锁店这个这个叫什么?就是那个家电连巨头连锁吧。那还有一些就已经是网上销售了。网上销售的话,那可能你直接在头,抖音头条,淘宝,京东的,是他们有一套物物流,这个客服系统。那你可能就是直接就在上面付费了,你也。那个上面它,你去接入的话,又是一套麻烦的事情。就是说,原本这些平台都已经有现成的这个框架了。不可能让你在上面去部署这些东西。原本他指望的是说你有人的这种客服,是吧?就比如说我使用的这个经验来看,头条上的这个,抖音上的这个他都有一个客服的接口。进去以后,这个聊天这些东西要怎么去适配你企业?企业是用手机,可能给你个,这个叫做这个聊天的 API 接口,他指望的是你人客服,那你现在你换成了这个这个本地的这个小模型,这个又是一套复杂的方案,你要适配不同的平台。我我只是举这个例子而已,我不是很清楚这个是不是真实的。