在人工智能的发展赛道上,“大模型、海量数据、超高算力” 的范式一度占据主流,但随之而来的高能耗、高成本、场景适配性差等问题日益凸显。通过对生物智能本质、非冯诺依曼架构、忆阻器技术的深度探讨,我们可以梳理出一条 **“智能分层、成本适配、存算一体”** 的类脑智能落地路径,为具身智能等场景提供全新解决方案。
传统数字 AI 的核心逻辑是 **“数据驱动的矩阵运算”**:依靠浮点数矩阵定义神经元权重,通过反向传播、梯度下降等算法优化参数,用精密的数字计算模拟智能。但这一范式存在先天缺陷 —— 它需要巨量的存储和算力支撑矩阵运算,且追求 “无限精度” 的实数稠密性,与生物智能的底层逻辑背道而驰。
生物智能的本质是 **“存算一体的记忆模型”:神经元之间的连接强度(权重)由物理结构直接决定,信号传导的过程就是计算的过程,无需额外的数字解析。其核心是 “条件反射式的记忆映射”—— 特定输入对应特定输出,而智能的关键则是“泛化延伸”**:基于已存储的 “输入 - 输出” 记忆点,对相似输入做出相似响应,如同函数的 “点集合采样”,点的数量越多、分布越密,泛化能力越强。
从这个角度看,智能并非 “全定义域的精准函数表达式”,而是 “覆盖需求场景的记忆点集合”。昆虫的神经元网络复杂度极低,却能完美适配觅食、避险的生存需求;同理,机器狗、养老陪护机器人这类具身智能,根本不需要哲学家级别的泛化能力,基础的记忆映射就足以完成任务。用通用大模型去驱动这类设备,本质就是 “用超跑拉货”,既浪费算力,又抬高成本。
模拟电路(类脑芯片)的核心优势是低成本、低能耗、存算一体,但痛点在于难以实现高效的训练调参 —— 模拟信号缺乏数字电路的精准反馈机制,无法像反向传播那样快速优化权重。对此,我们提出的 **“数字训练 + 模拟推理”折中方案,其核心要义并非复刻数字模型的计算过程,也不是针对单条指令固化单个忆阻器状态,而是用模拟存储替代数字计算,直接记录 Transformer 多层 FFN 的完整输入输出结果 **,这也是该方案能兼顾效率与成本的关键所在。
Transformer 的每一层 FFN 本质上都是一个复杂的 “函数变换器”:输入一组特征向量,经过矩阵乘法、非线性激活等运算后,输出一组新的特征向量,18 层、36 层的堆叠则是对函数变换的逐级叠加,最终得到从原始输入到目标输出的完整映射。这个过程中,矩阵运算、浮点数权重都是数字世界实现函数变换的手段,但对于模拟电路而言,我们完全不需要复刻这些手段 —— 就像我们不需要理解y=2x²的函数推导过程,只需要记录不同x对应的y值一样。
具体来说,这一技术路径分为三个核心步骤:
训练端:复用 Transformer 的成熟算法,获取全链路映射结果我们完全借用当前 Transformer 架构的训练机制,依靠矩阵运算、梯度下降等成熟算法,对海量数据进行拟合与学习,得到一个具备强泛化能力的数字模型。这一阶段的核心目标,是通过反复调参去除数据噪音,让模型的多层 FFN 能够稳定输出 “输入信号→逐层变换→最终输出” 的全链路结果。比如针对机器狗的视觉输入 “兔子特征”,我们会完整记录它在第 1 层 FFN 的输出特征、第 2 层 FFN 的输出特征…… 直到第 18 层 FFN 的最终输出特征,形成一组完整的 “输入 - 逐层输出 - 最终输出” 数据链。
映射端:提取全链路数据链,转化为忆阻器阵列的存储状态训练完成后,我们既不移植数字模型的权重矩阵,也不针对单条指令固化单个参数,而是
将全链路数据链直接转化为忆阻器阵列的物理存储状态。针对每一组输入信号对应的逐层输出特征,我们会用一组忆阻器的电阻值去记录该层的特征状态 —— 比如第 1 层 FFN 输出的特征向量中,每个维度的数值对应一个忆阻器的电阻值;第 2 层 FFN 的输出特征则对应另一组忆阻器的电阻值,以此类推,直到最终输出层。
这个过程中,我们不需要理解每一层 FFN 的矩阵运算逻辑,只需要让忆阻器阵列 “记住”:当某一输入信号进入时,第 1 组忆阻器应该呈现什么样的电阻状态,第 2 组忆阻器应该呈现什么样的电阻状态…… 最终通过逐层的电阻状态传导,得到目标输出。忆阻器的高密度集成特性,让我们可以用海量的存储单元去记录这些数据链 —— 哪怕是数百层 FFN 的复杂变换,也只需要对应的忆阻器阵列去存储每一层的结果,本质上就是 **“用存储容量替代计算算力”**。
推理端:纯模拟电路运行,以 “状态传导” 替代 “矩阵运算”推理阶段,模拟电路完全脱离 GPU、CPU 的通用算力支撑,无需进行任何矩阵乘法或非线性变换计算。外界信号经编码器转化为模拟信号后,会触发忆阻器阵列的初始状态 —— 对应数字模型中输入信号的初始特征;随后,这一状态会在忆阻器阵列中逐层传导,每一层忆阻器的电阻值会直接决定该层的输出特征状态,就像数字模型中逐层 FFN 的变换效果;最终,最后一层忆阻器的状态会被解码器转化为执行动作,比如机器狗的奔跑、转向。
整个过程没有任何 “计算”,只有 “状态的读取与传导”—— 数字模型中需要通过复杂矩阵运算得到的逐层结果,早已被存储在忆阻器阵列中;模拟电路做的,只是按照输入信号调取对应的存储状态,逐层传导后得到输出。这就像生物的条件反射:狗不需要理解 “看到兔子→追兔子” 的逻辑推导,只需要记住 “看到兔子” 这个输入对应的 “追兔子” 这个输出,而忆阻器阵列做的,就是把多层 FFN 的复杂变换结果,全部转化为可直接调取的 “记忆状态”。
忆阻器是实现类脑芯片的关键核心器件,其最大优势是电阻值可动态调节,且能在断电后保留电阻状态—— 这完美契合 “存算一体” 的需求:电阻值直接对应多层 FFN 的特征状态,信号传导时的状态读取就是计算过程,无需额外的存储单元。
与传统晶体管相比,忆阻器的结构更简单,集成密度更高。当前 3nm、2nm 的制程工艺,已能在极小面积内集成海量忆阻器器件,其密度完全有潜力逼近甚至超过生物大脑的神经元突触数量。而忆阻器的技术难点,不在于 “器件微型化”,而在于 **“状态映射的精准性与稳定性”**—— 如何让数字模型中逐层 FFN 的输出特征,精准转化为忆阻器的电阻值,且长期保持稳定,避免状态漂移影响输出结果,这是后续研发的核心方向。
类脑智能的落地逻辑是 **“智能分层,按需匹配”**,而支撑这一逻辑的核心,是 “存储换算力” 的等价替代思路 —— 数字模型的泛化能力是 “用少量计算单元覆盖海量场景”,而模拟电路的应用是 “用海量存储单元记录海量场景的结果”,二者在功能上可以实现等价。
对于低成本具身智能场景,比如玩具机器狗,我们并不需要它具备识别从未见过的动物并做出反应的泛化能力,只需要它能响应 “追兔子”“躲障碍” 等固定指令。此时,我们只需从训练好的数字模型中,提取这几个固定指令对应的全链路数据链,转化为小规模忆阻器阵列的存储状态。这种芯片的量产成本极低,无需复杂算力支撑,完全能匹配玩具的价格定位。
对于中端服务智能场景,比如养老陪护机器人,需要它能适配不同老人的语音指令、不同居家环境的障碍类型。此时,我们可以适当扩大忆阻器阵列规模,提取数字模型中更多场景对应的全链路数据链 —— 比如不同口音的 “喝水” 指令、不同形状的 “障碍物” 特征对应的逐层 FFN 结果,让模拟电路具备中等泛化能力。这类芯片的能耗仅为数字模型的 1/10,适合长时间不间断运行,完全契合陪护机器人的使用需求。
对于高端专业智能场景,比如工业质检机器人,需要它能识别产品的多种缺陷类型,应对不同的生产环境。此时,我们可以采用大规模忆阻器阵列,提取数字模型在复杂质检场景下的大量全链路数据链 —— 比如不同光照条件下的产品缺陷特征、不同批次产品的细微差异对应的逐层 FFN 结果,让模拟电路具备高精度泛化能力。相比动辄数百万的 GPU 集群部署成本,这类模拟芯片的成本能降低 80% 以上,同时满足工业场景的高可靠性要求。
这种模式打破了 “智能必须靠高算力堆砌” 的误区:数字模型的泛化能力,是为了应对未知场景的 “归纳总结”;而模拟电路的应用,是针对已知场景的 “结果存储”。当忆阻器阵列的存储容量足够大,能够记录数字模型覆盖的所有场景结果时,二者的智能水平就是等价的 —— 就像狗的记忆力足够强时,它能记住所有见过的场景对应的反应,其表现与具备复杂推理能力的大模型并无差异。类脑芯片的价值,就在于让智能回归 “功能需求”,实现 “成本与能力的精准匹配”。
当前阶段,类脑芯片的核心目标是 **“场景化落地”**,即针对特定具身智能场景,开发专用的模拟功能块,无需追求通用智能。但随着忆阻器技术的进步、状态映射精准性的提升,未来的类脑智能将朝着两个方向演进:
- 横向扩展:通过多模块模拟电路的协同工作,实现跨场景的能力整合,如陪护机器人同时具备语音交互、动作执行、环境感知等功能;
- 纵向深化:提升忆阻器阵列的密度和可塑性,让模拟电路具备 “在线学习” 能力 —— 不再依赖数字训练,而是通过物理信号的反馈直接调整电阻值,记录新的输入输出数据链,真正复刻生物大脑的 “记忆 - 学习 - 记忆” 循环模式。
从本质上看,类脑智能的发展不是对数字 AI 的否定,而是对人工智能底层逻辑的回归 —— 智能源于自然,而自然的逻辑,从来都是简单、高效、低成本的。当 AI 从 “数据堆砌” 转向 “存算一体”,从 “通用算力” 转向 “场景适配”,其大规模落地的曙光,就在眼前。
要不要我帮你把这篇文章里的核心创新点提炼成精简的要点清单,方便你用于学术分享或演讲提纲?