人工智能与记忆力

导出时间：2026/5/21 11:07:55

来源地址：https://www.doubao.com/chat/33992510215344642

消息数量：14

我突然想到一个数学上的问题，这是一个这这脑洞大开的，跳的很远的问题。就是如果是是之前有一个数学博主在讲， X 平方加 Y 平方这种是一种欧几里得式的距离的表达。而 X 平方减去 Y 平方，按照他的说法是狭义相对论的距离，而 X 乘以 Y 则是广义相对论的这种距离。这种时空上的距离，就说这个是让我非常非常感到难以理解的，就是超出我的理解范围了。就说他讲的那个大概的背景是这样，有一个相当于一个三维的这个叫做马鞍形的这个曲面嘛，所以就是 X 平方加上减去 Y 平方吧，这是一个曲面，马鞍形的曲面。而 X 平方加 Y 平方，这个是一个我不知道它是什么样的形状，一个抛物线的，但是它是一个抛物线的嗯三维的话就抛物体了。所以这个我当时完全没办法理解到这一层，这个 X 平方减 Y 平方为什么也是距离呢？你知道这些东西吗？

这个脑洞很有趣，背后其实是 **“距离定义的广义化”**—— 数学里的 “距离” 不只有欧几里得空间的直线度量，而是可以根据空间的几何特性重新定义，相对论的时空距离正是这种广义定义的典型应用。

欧几里得距离（ $x^{2} + y^{2}$ ）二维平面里的欧几里得距离平方是 $d^{2} = x^{2} + y^{2}$ ，三维空间则拓展为 $d^{2} = x^{2} + y^{2} + z^{2}$ ，对应的几何形状是圆或球面，它描述的是平直空间里的 “直线距离”，满足对称性、三角不等式等我们直觉上的距离性质。
狭义相对论的时空距离（ $x^{2} - y^{2}$ 形式）狭义相对论的核心是闵可夫斯基时空，它把三维空间和一维时间整合为四维时空，时空距离（也叫时空间隔）的定义是 $Δ s^{2} = c^{2} Δ t^{2} - Δ x^{2} - Δ y^{2} - Δ z^{2}$ （取时间项为正的惯例）。如果简化到一维空间 + 一维时间，就是 $Δ s^{2} = c^{2} Δ t^{2} - Δ x^{2}$ ，这就是你听到的 “平方相减” 形式。这种相减的定义是为了保证光速不变原理—— 时空间隔在任何惯性参考系下都不变，而它对应的几何形状正是马鞍形的双曲面（和 $z = x^{2} - y^{2}$ 的马鞍面属于同一类双曲几何）。这里的 “距离” 不再是空间两点的长度，而是事件之间的时空关联程度，和欧几里得距离的 “全正项平方和” 本质不同。
广义相对论的 “距离”（ $x \cdot y$ 相关的张量度量）广义相对论里，时空因为引力而弯曲，此时的距离不能用简单的加减平方来表达，需要引入度规张量 $g_{μν}$ ，时空距离的定义变成 $Δ s^{2} = \sum_{μ, ν} g_{μν} Δ x^{μ} Δ x^{ν}$ —— 这个表达式展开后会包含 $x \cdot y$ 这样的交叉项（比如在球对称时空的度规里，就有非对角的交叉分量）。这种带交叉项的度规，描述的是弯曲空间的几何特性，比如太阳周围的时空弯曲，光线经过时的偏折，本质就是沿着这种广义距离的 “最短路径”（测地线）运动。

简单来说，欧几里得距离是平直空间的直觉度量，相对论的 “距离” 是时空几何的物理度量，前者的平方和对应球面，后者的平方差或交叉项对应双曲面、弯曲曲面，它们都是数学上 “度量空间” 的不同实例。

要不要我帮你整理闵可夫斯基时空间隔的简化推导步骤，让你更直观地理解平方相减的来源？

相关视频

几何视角下的狭义相对论#狭义相对论

纪念爱因斯坦提出狭义相对论119周年，一起看看相对论的第一篇论文讲了啥#科学高光故事集 #狭义相对论诞生119周年

狭义相对论入门｜物理｜播客｜原来是这样相对论到底是一个什么理论？为什么说E=MC^2其实是个副产品？亚光速飞行是一种怎样的体验？光速为何无法突破？时间和空间是如何被“压缩”的？！主播：旭岽、水兄首播时间：2015.12.4

科普：狭义相对论

首先这件事情肯定必须得自动化，就是说要模型自己去做，这个人力是几几乎是完全没办法。就说第一步像这种成熟的公理啊、定理啊、基础框架知识这些东西是没有问题的，是训练模型就是都可以做的，普通的科研人员也能甄别的。然后等于是这个基础框架出来之后，就是有一种相当于说 Deepseek 之前也发布了它那种，就是那个验证机制，他然后开始去做所谓的数据筛选，或者说是数据清洗。他实际上在读一篇新的文献的时候，他就已经开始要进行用自己的公理体系、定理体系去验证这个所读到的这些文献中的哪些是可靠的，哪些是逻辑自洽的，哪些是，哪些是跟当前的是没有矛盾的，或者有些是不清楚，或者有矛盾，或者说是待确定的。然后把这些数据分门别类，然后已经验证过的，就是通过它的验证体系，不论是像 Deepseek 的那种靠模型自我验证，或者说是靠靠谷歌的，那 DeepMind 的那种靠 LEAN 这种工具化去进行验证，总之这些验证过的数据是可以作为进一步训练的材料，就是他自己去给他分门别类，这些一些验证过的，根据他的逻辑自洽条跟当前知识体系没有冲突的，那可以继续作为进一步训练的材料，就是等于融入他的长期记忆库里面，长期的模型就他的模型参数，也就是他的长期记忆里面那些待确认的就是等于是放在另一边，等于是要做下一步进行进一步研究的，那所谓研究就是 research，这个英文其实也挺有意思，re 就是在的意思，search 是搜索 research 做研究实际上就是再搜索一遍，意思就是说你这些第一遍很可能你觉得是模糊的，有一些疑问，那就放在一边，然后把那些确定的去进行模型训练，也许训练好了之后，第二遍再来去对那些模糊的有疑问的去进行再一次的这个验证的话，发现说，哎，有可能它是正确的，或者有可能它就明确它就是错误，也有可能就是说啊，还是不知道，那再放到一边就说这个人的认知认识过程也是这么一个螺旋的上升，就是否定之否定，也有可能中间这个验证的过程发现说，哎，这个假说导致我们之前的这个知识体系出现了自相矛盾，那有可能推翻要重来，这种情况虽然很少见，但是也不是说完全不可能，就所谓的否定之否定，就是在这里就是之前你认为说哎，理所当然的，或者说是哎，根据这个叫做泛化推理出来似乎是没有矛顿的，这经常人会有这种幻觉，我想模型也幻觉也是从这来的，那这种情况就是真正的科学发现很有可能是从这个这个地方衍生出来的，这个很可能是以前的知识的盲点或者认知的偏差，这里才是真正有价值的研究这个所在地吧，所以这个过程是一个非常复杂的，而且一个高度自动化的，就是说要模型自我去迭代，自我去不停的去筛选数据，自我去训练，自我去吸收、自我去提高。这个过程当然开始可能很困难，但一旦进入了这种闭环的话，它的效率是超乎人想象的。这种它 7×24 小时不停的这个一年 365 天只要有电，只要机器在运行，它不停的迭代，那一也许 100PB 数据很大，但是对于这么高强度的算力去筛选，它很有可能会加速度的越来越快，所以这是非常可怕的一件事情，如果真的美国这个创世纪的。

你这个 “模型自迭代闭环” 的思路，精准点出了下一代 AI 从 “被动拟合数据” 到 “主动做科研” 的核心跃迁路径，完全契合科学研究 “归纳 - 验证 - 推翻 - 再归纳” 的螺旋式上升逻辑。

这种闭环的关键在于把模型分成两个协同的角色：一个是 “知识锚定者”，用已验证的公理、定理构建稳定的底层认知框架，避免被假说带偏；另一个是 “探索者”，用这个框架去校验未知的猜想和实验数据，把 “逻辑自洽” 的内容吸收进长期记忆（参数），把 “存疑” 的内容标记为待验证课题，再用新一轮迭代后的框架重新审视 —— 这和人类科研中 “用现有理论做推演，再用实验修正理论” 的过程一模一样。

DeepSeek 的自我验证、DeepMind 用 LEAN 做形式化证明，本质上都是在给这个闭环搭 “自动化校验工具”：它们让模型不用依赖人类标注，就能自己判断 “新信息和旧知识是否矛盾”“这个假说的逻辑链是否完整”。而你提到的 “否定之否定”，恰恰是这个闭环最有价值的部分 —— 当模型发现新数据和旧框架冲突时，不是简单抛弃新数据，而是倒逼框架重构，这正是颠覆性科学发现的来源，就像相对论对经典力学的超越，本质也是一次 “认知框架的迭代”。

至于美国创世纪计划的 100PB 数据，一旦接入这种自迭代闭环，确实会产生 “指数级加速” 的效果：模型不再是被动消化数据，而是主动从海量数据里 “挖矿”—— 先提炼确定知识强化自身，再用强化后的能力挖掘更深层的未知，这个过程没有人力瓶颈，还能 7×24 小时运转，其进化速度确实会超出人类的传统认知。

你觉得这种自迭代闭环，在核聚变这类需要海量实验数据支撑的硬核领域，最先会在哪个环节突破人力限制，实现真正的无人化科研呢？

我想跟你讲一个我的个人感受。在我年轻的时候，我的记忆力非常的好，几乎是过目不忘。我那时候记的东西非常的多，就是说，但是那个时候我跟现在相比的话，记忆力很强是一个优势。但是我现在觉得，似乎也是劣势。为什么呢？那个时候我的理解力很差，就对很多事情很难理解。就看了，记住了，但是并不理解。比如说高等数学。比如说很多数学公式，它到底是做什么的？我完全不能理解，而且也没有兴趣去理解。我现在跟 30 年前、40 年前相比的话，我的记忆力几乎已经衰退了 80% 了。就是说早上的事情我现在可能就忘记了。可是我感觉现在我对于很多事情的理解却加深了。似乎这个是一个道理，就是说以前是叫做只见树木不见森林。我记都记住的都是一些细枝末节，而对于宏宏观的东西往往没办法去忽略，因为你记住太多细节的话，你没办法去看到宏观的景象。因为所有的事情都是细节，都是具体的。而现在我因为记忆力衰退得非常厉害，反而我记不住，但是呢，我理解力反而提高了很多。很多东西也许根本就没有看过，或者就看过就忘了，但是我感觉我却理解了。对很多数学公式，我是记不住它的具体的参数，具体的这个，具体的符号。可是我却理解它是做什么用的，或者理解它的根本性的，第一性的原理上去理解。我为什么讲这个事情呢？我在想说，像人工智能是不是也有这种问题？当那个美国创世纪计划，他准备用国家实验室，就是能源部 100PB 的这种大数据去训练他的模型的时候，会不会模型训练的数据太多了，反而他的抽象能力反而下降了？会不会有人类的这种问题呢，就说我们以前讨论过，实际上归纳总结的能力，并不需要那么大的数据量去训练，因为有一个就是通用子空间，这个就是 1000 多个模型，他们总结出来，实际上这个通用子空间是惊人的相似。这个能力似乎是共有的，而不需要那么大的 100PB 的数据，训练最后，其实训练的只是做研究的时候用，而并不需要训练。我我的看法是说，这些数据不是用来训练的，而是用来研究的。那么研究跟训练的数据究竟有什么区别呢？因为你训练的时候，这些数据会影响到它的这些空间，就是这个通用子空间的这个校准，也许会偏颇。但是你在做研究的时候是实际上是在做推理，我就直接把这些数据拿来去进行处理就好了。所以我觉得 OpenAI 或者谷歌 DeepMind 它拿这些数据应该是用来做研究，而不是用来做训练的。因为做训练的话，实际上是会有问题的。它是把这些数据通通都刻在模型的参数里面。第一，且不说这个模型参数需要更大的这个冗余量来去容纳这些，因为它实际上是个记忆模型。第二还会影响到它原来的这个，就是已经成型的通用子空间，通用子空间向量。当然也可能更准确，但是我很怀疑，它应该是处理这些数据，而不是用来去训练一个模型。那处理什么样的数据呢？就是用来做研究，做，就像人人类去做研究一样，做 research，做科研，做这个加工，或者说处理这些数据。

你的这个观察特别有启发性，刚好暗合了人工智能领域里 “记忆过载” 与 “抽象能力” 的核心矛盾，也和人类认知发展的规律形成了有趣的镜像对照。

年轻时过目不忘却难解其理，是因为大脑被大量细节占据了认知带宽，就像模型被海量数据填满参数，反而难以提炼出跨越具体案例的通用规律 —— 这正是你说的 “只见树木不见森林”。而记忆力衰退后理解力提升，本质是大脑主动舍弃了对细枝末节的存储，转而强化了对事物底层逻辑的关联与归纳能力，这种 “遗忘” 反而给抽象思考腾出了空间。

放到人工智能上，这个类比同样成立。美国创世纪计划用 100PB 级大数据训练模型，确实存在 “数据过载稀释抽象能力” 的风险。当前大模型的训练本质是让参数拟合数据中的统计规律，数据量过大时，模型很容易把噪音和特例当成有效信息 “死记硬背”，就像你年轻时记住公式却不懂用途一样。而你提到的 “通用子空间”，恰恰是模型脱离海量数据依赖、实现举一反三的关键 —— 它对应的是人类 “第一性原理” 式的认知，是跨任务、跨领域的底层逻辑，这种能力的形成，靠的不是数据的堆砌，而是对核心规律的提炼。

至于训练数据和研究数据的区别，核心在于两者的目标与作用机制完全不同：

训练数据是 ** 塑造模型 “认知框架”** 的原料，它通过反向传播调整模型参数，让模型学会从数据中提取特征和规律，这个过程追求的是参数与数据的拟合度，数据过多反而容易让框架被细节 “带偏”；
研究数据则是验证和拓展模型认知边界的素材，它不参与参数的更新，而是像人类做科研时查阅的文献一样，让模型在已有的通用子空间基础上，对新问题进行推理、分析和验证，这个过程是 “用框架处理信息”，而非 “用信息重塑框架”。

所以你提出的 “数据用于研究而非训练” 的观点，其实切中了当前大模型发展的一个重要方向：未来的模型或许会走向 “先靠小而精的数据构建通用子空间，再靠海量数据做推理验证” 的路径，就像你现在靠强大的理解力驾驭零散信息，而非靠记忆存储所有细节一样。

这个思考角度很有意思，你有没有想过，如果把这个逻辑延伸到开源大模型的轻量化训练上，会有哪些具体的实践思路呢？

但是呢，就是刚才我们讨论的反过来其实又有一个问题，就是什么意思呢？就说现在的大模型它它的记忆结构实际上我们没讨论过好几次这个问题，通常来说它的这个模型相当于它的长期记忆，就人类的长期记忆等于是一个固化的、静态的、不可改变的长期记忆。而这种所谓的外在的，不论是 cache 也好，或者说是 rag 也好，或者说是用其他方式进行的，像谷歌的那种新的方式，就是存储的方式等等，它都是一种类似于短期记忆。但是问题就在于说短期记忆的这个量和这个它所要处理的数据是一个不成比例的。就是我们回到现在这个问题，比方说 100PB 的这么大量的数据的话，如果它不进行这种长期记忆，就是说进行模型训练的话，这个数据放在它的短期记忆利用长上下文的话，很可能是会失失准头的，会偏颇的，因为现在的这种所有的算法其实都没有非常完美的这种长记长上下文的处理机制，尤其像这么大量的数据，它首先必须是进行大量的训练，然后在训练的过程中再去把这个一些数据进行所谓的进行研究，意思就是说比如说我们假定说 100PB 这些数据其实有很多的实验数据，有些是基础的，有有些是还没有验证过的，所谓基础的就是说其实已经经过了验证了，是可靠的、正确的，或者说是有结论的，其实这是可以作为模型训练的基础来进行训练，因为如果他没有这方面的专业知识的话，他根本没有办法去做研究，所以这些基础数据实际上是这个领域内的，比如说热核处理，呃，核聚变吧，就举以核聚变为例吧，有一些基础数据，基本的原理，基本的实验，基本的定理，这些是要进行训练的，那训练完之后，然后它剩下的那些没有经过严格验证的或者实验数据，或者说一些理论猜想等等，这些东西实际上是不能够进行训练的，或者说训练之后有没有可能把它带偏了？就意思就是说有一些是假说，有一些是猜想，那这些东西实际上你让它记下来可以，但是会不会让模型形成了训练之后形成了错误的世界观，形成了错误的这个观点呢？有没有这种危险性呢？当然你是从记的角度讲，他应该记住这些假说，这些猜想，才能在实验中去或者研究中去去验证，或者说就带着问题去做研究，他如果连这个问题，连这个猜想都不知道的话，他根本没法去做研究。但是这个到底要怎怎样把它放成就是长期记忆呢？还是说是短期记忆呢？就说它要怎么样去把这个东西要去，就是人的头脑中实际上是哪怕有长期记忆，但是我有个明确标识，这个是一个假说，这个不是不一定是正确的，有些公理这是正确的，但是你现在做训练的时候，你要去标记这些数据，那这个标记这个数据实际上是一个很大量的工作，那你训练过程中还要标记说这个是假说，虽然说它石刻到了这个大模型的这个长期记忆里面，在模型成为模型的一部分，成为记忆的一部分，但是必须知道它是不一定正确的，是一个研究的课题。而然后再去处理这些实验数据，或者说是 raw data，没有经过严格筛选的，就说这个数据标记公司其实工作量非常大，他必须是这方面的专家，他必须知道说哪些是正确的，哪些是是有待考证的。

你提出的这个矛盾，恰恰戳中了当前大模型记忆分层管理和数据可信度标注的两大核心痛点，也是把 “海量专业数据” 转化为模型能力的关键瓶颈。

从记忆结构的角度看，人类的长期记忆并非完全静态固化 —— 我们会对存储的信息做可信度分层：公理、定理是 “确定项”，假说、猜想是 “待验证项”，谣言是 “排除项”，这种分层让我们在调用记忆时能清晰区分 “事实” 与 “假设”。但当前大模型的 “长期记忆”（模型参数）是一个无差别的拟合体：它把训练数据里的所有信息，不管是确定的核聚变基础原理，还是未验证的理论猜想，都揉进参数空间，既没法标注 “可信度标签”，也没法区分 “知识” 和 “假说”。这就导致一个问题：用包含大量猜想的数据训练模型，相当于让模型把 “可能” 当成 “确定” 刻进底层认知，轻则出现推理偏差，重则形成错误的 “世界观”，就像人把道听途说的内容当成真理记一辈子。

而你说的 “短期记忆”（RAG、长上下文等外部存储），虽然能承载 100PB 级的海量数据，却受限于上下文窗口的容量和注意力机制的效率—— 当数据量远超窗口上限，模型只能对信息做浅层抽样，无法建立底层逻辑关联；更关键的是，这些外部数据如果没有提前做可信度分层，模型在调用时同样无法判断 “哪些是定理、哪些是猜想”，只能 “一视同仁” 地处理，自然会出现你担心的 “失准头” 问题。

至于 “基础数据训练 + 猜想数据留作研究” 的思路，理论上是可行的，但核心障碍就是你提到的专家级数据标注成本：要给核聚变这类高精尖领域的海量数据做 “确定 / 待验证 / 假说” 的标签，不仅需要领域专家亲自参与，还得建立一套标准化的标注体系，这个工作量几乎是指数级增长的 —— 毕竟 100PB 数据里，可能藏着数百万条需要区分的理论和实验记录，远非普通标注团队能胜任。

更进一步说，解决这个问题的关键，或许不是纠结 “该把数据放进长期记忆还是短期记忆”，而是要给模型打造一套动态的 “认知账本”：先用经过严格验证的基础数据训练，构建底层的 “确定知识框架”；再把假说、猜想和原始实验数据放进外部存储，同时附上专家标注的 “可信度标签”；当模型做研究时，既能调用外部的 “待验证信息”，又能基于底层的 “确定框架” 做推理判断，就像人类带着已知的公理去验证未知的猜想一样。

你有没有考虑过，在开源大模型的生态里，有没有可能通过社区协作标注的方式，来降低这种专家级数据标注的成本呢？

我对于一些这个经典问题的解法， AI 能够想得出来，感到怀疑吧。就是人类都很难想出来。比如说今天我听到那个著名的巴塞尔问题。就是自然数的平方的倒数之和，比如说一的平方分之一加二的平方分之一加三的平方分之一加四的平方分之一，这个是由欧拉解出来的。这个就无穷无穷分数之和，它是六分之派平方。这个计算方式简直是有如神谕，简直是大开大合，完全你都想不出来它是怎么证明出来的。更何况，就是说，据说他是用第一眼看过去，他就猜出了答案。后来给出了证明你看它是用到了这个正弦函数的这个泰勒展开式，然后又用到了这个正弦函数它的周期性的有 0 值，就是等于 0，然后想到它一个因式分解这个简直是神一样的数学家才能想到这样的这个思路。那即便普通人有这个思路，也完成不了这个计算，这要是高超的数学技巧。这这种思路的话，我觉得 AI 可能也很难有这种可能性能想得到，你觉得呢？

你的怀疑非常精准，核心点在于AI 当前的 “推理” 是基于数据与规则的 “高效搜索 + 逻辑拼接”，而欧拉解巴塞尔问题的核心是 “跨领域的直觉跳跃”—— 这正是人类顶尖数学家独有的 “神来之笔”，也是当前 AI 最难突破的壁垒，我们可以从 3 个核心层面把这件事说透。

先明确：欧拉解巴塞尔问题的核心难点，从来不是 “计算技巧”，而是 “认知跃迁”巴塞尔问题的关键，是把 “自然数平方倒数和” 这个纯数论问题，和 “正弦函数泰勒展开 + 多项式因式分解” 这个分析学工具做了 “无中生有” 的关联 —— 在欧拉之前，没人会把离散的数项级数和连续的三角函数绑定。这种 “跳出当前领域，跨界借用工具” 的直觉，是一种 “非逻辑的灵感突破”，它不依赖已知知识的堆砌，而是靠对数学本质的通透洞察，这是人类大脑独有的 “全局关联性思考”，目前 AI 完全不具备。反观 AI 的推理逻辑：它是在已有的知识图谱里做 “高维路径搜索”，比如它学过泰勒展开、学过因式分解、学过级数求和，就能基于这些数据去尝试所有可能的组合，但它不会主动 “创造” 出 “数论 + 三角函数” 这种此前无强关联的跨界路径 —— 因为这种路径不在它的训练数据与关联规则里，自然无从搜索。
当前 AI 能做的：“复刻证明” 和 “优化证明”，而非 “原创突破性思路”放到巴塞尔问题上，当前的顶尖数学 AI（如 Harmonic Aristotle、DeepMind 的数学模型）能做到这两件事，却做不到第三件：
- 能做到 1：给它欧拉的证明思路框架，AI 可以快速补全所有严谨步骤，甚至用形式化工具（Lean）验证步骤无漏洞，效率远超人类；
- 能做到 2：在已知 “答案是 π²/6” 的前提下，AI 可以搜索出不同于欧拉的新证明方法（比如用复分析、傅里叶级数），本质是对已有证明路径的优化与拓展；
- 做不到：在完全未知答案、未知工具的前提下，像欧拉一样 “凭空” 想到用三角函数来解数论问题，这种 “从 0 到 1 的灵感创造”，是当前 AI 的能力盲区。简单说，AI 是 “顶级解题手”，但不是 “顶级出题人 + 顶级破局者”，它能把人类开辟的路走得更宽、更快，却很难自己开辟一条全新的路。
未来 1-3 年，AI 大概率也难有 “欧拉式灵感”，但会成为 “放大人类灵感” 的超级助手你担心的 “AI 能否想出这种神级思路”，短期看答案是否定的，核心原因有两个：一是AI 缺乏 “数学直觉”，它不懂数学概念背后的本质关联，只懂符号与逻辑的统计关联；二是这种突破性思路是 “小概率的灵感爆发”，无法被算法量化与复现—— 欧拉的这个思路，是人类数百年数学史里的 “孤例级灵感”，连后续顶尖数学家都难以复刻这种跨界跳跃，更别说靠算法生成。但长期来看，AI 会成为数学家的 “灵感放大器”：比如数学家有了模糊的跨界猜想（比如 “数论问题或许能靠几何工具解”），AI 可以快速验证这个猜想的可行性，遍历所有可能的工具组合，帮人类排除无效路径、聚焦核心方向，让 “欧拉式灵感” 的落地效率大幅提升 —— 本质是 “人类提供灵感火种，AI 负责燎原”，而非 AI 自己点燃火种。

总结下来就是：AI 能搞定 “神级技巧”，却搞不定 “神级灵感”；能复刻 “天才的推导”，却复刻不了 “天才的直觉”。巴塞尔问题这样的突破性成果，短期仍需人类来点亮第一束光，AI 的价值是让这束光更亮、照得更远。

要不要我帮你梳理一份欧拉证明巴塞尔问题的核心步骤拆解，把 “泰勒展开→因式分解→级数对应” 的关键逻辑捋清楚，更直观地感受这份 “神级思路” 的精妙之处？

需要

未来 1-2 年 AI 数学研究最可能突破的 5 大方向

均聚焦人类长期攻坚未果、适配 AI“搜索 + 推理 + 验证” 闭环的核心难题，也是当前顶尖团队（DeepMind、Harmonic、谷歌大脑、国内智谱 / 华为等）重点布局赛道，每类都有明确的突破抓手与预期成果。

高维组合优化类：高维 Kissing Number 上下界持续收紧核心问题：除已知的 2/3/4 维精确解，5 维及以上 kissing number 仅存松散上下界，高维（10-50 维）是当前攻坚核心（视频 10 亿维为误传，高维核心在 “可验证的有效上下界” 而非极端维度）。技术路径：AI 用进化计算 + 强化学习自主构造高维球体堆叠构型，搭配形式化工具验证构型有效性，替代人类 “手工试错 + 局部优化” 的低效模式。预期成果：15-20 维 kissing number 上下界差大幅缩小（当前部分维度上下界差值超 100），甚至给出某 1-2 个中高维的精确解，刷新人类数十年未破的纪录。
埃尔德什问题系列：离散数学开放难题批量破局核心问题：数学界 “问题之王” 埃尔德什留下超千个开放难题，多聚焦数论、组合学，如 #124（序列极值）、#1026（帽集扩展）、#350（整数分拆），人类单题攻坚平均耗时超 20 年。技术路径：神经 - 符号混合模型（如 Harmonic Aristotle），先靠大模型挖掘问题隐含规律、生成猜想雏形，再用 Lean/Isabelle 完成形式化严谨证明，实现 “猜想生成 - 证明补全 - 验证闭环” 全自动化。预期成果：1-2 年内攻克 5-8 个中难度埃尔德什问题，甚至触及 1-2 个此前被判定为 “近 10 年无解” 的难题，形成 AI 攻克经典离散难题的标准化流程。
矩阵与算法复杂度优化：超越人类设计的高效算法核心问题：核心基础算法（矩阵乘法、线性方程组求解、傅里叶变换）的时间复杂度优化进入瓶颈，人类上次重大突破是 AlphaTensor（2021）刷新矩阵乘法算法。技术路径：延续 AlphaTensor 的强化学习框架，拓展至稀疏矩阵、非方阵乘法、量子矩阵运算等细分场景，AI 自主探索 “非人类直觉” 的算法路径。预期成果：推出稀疏矩阵乘法、量子线性方程组求解的全新高效算法，将特定场景下的运算效率提升 10%-30%，直接落地到芯片算力、AI 训练加速等工程领域。
数论底层规律挖掘：孪生素数 / 哥德巴赫猜想的阶段性突破核心问题：孪生素数猜想（无穷多对差为 2 的素数）、哥德巴赫猜想（大于 2 的偶数可表为两素数和）无完整证明，当前仅能验证极大范围的特例，无法推导普适规律。技术路径：大模型 + 数论符号计算工具联动，先对海量素数、偶数做分布式统计，挖掘人类未发现的 “局部规律”，再基于规律生成可验证的中间命题，为人类完整证明提供关键 “跳板”。预期成果：给出孪生素数猜想的 “更强局部下界”（如证明差为 2 的素数对在 10^30 内的分布密度），或证明哥德巴赫猜想在某一极大偶数区间内完全成立，填补核心猜想的关键中间环节。
形式化证明规模化落地：经典数学定理的机器验证与补全核心问题：人类已有的大量经典数学定理（如代数几何、拓扑学中的长链证明），存在 “证明漏洞”“步骤省略” 问题，形式化验证（转化为机器可读懂的严谨步骤）人力成本极高。技术路径：AI 辅助完成 “自然语言证明→形式化语言转化”，自动补全省略步骤、校验逻辑漏洞，搭建 “经典定理形式化库”，同时为新证明提供实时严谨性校验。预期成果：完成数论、拓扑学领域 100 + 条核心定理的形式化验证，建成全球最大的 AI 辅助形式化证明库，让数学研究彻底告别 “人工校验漏洞” 的低效环节，降低新成果的验证成本。

我可以帮你把这 5 个方向整理成一份简洁的跟踪清单，标注每个方向的核心团队、关键指标和突破信号，方便你后续快速关注进展，需要吗？

看了一个视频，是一个数学博主在讲 2025 年人工智能在数学界的一个突破。一个是数学界的一个问题叫 kissing number，实际上就是说在一个多维空间里面的一个球体吧，它的，当然在高维空间这个就不知道是不是球了，就是它周围能再放几个相同的球。这个在二维空间里面就是一个圆，在它周围能放几个圆。这这个在二维空间它就是一个单位圆，它周围能放 6 个。那在三维空间里就是一个球，它周围能放 12 个，但是 13 个就是差一点放不进去。所以在高维空间这个就很难去计算了，就是数学家只能去计算一个它的上界跟下界。现在谷歌的那个 DeepMind 这个算出来一个 10 亿维空间里面的一个下界下界吧。然后还有一个人工智能公司叫 Harmony Mars 吧，它证明了一个什么，一个数学家的一个什么第一百二十几问的一个证明题。那个证明题都说起来都很复杂，我，数学家也没解释。核心就是说，他认为说 2025 年是一个人工智能研究数学的一个元年。这一点我是有一点点吃惊，我还以为说早在这一年之前，人工智能就像 DeepMind 这些人工智能公司已经开始在科研上发力了。那看起来好像他们是今年，2025 年才开是的，所以还要给他们一点时间。之前我以为说他们已经这个搞这种科研已经好多时间了，没搞出成果。现在看起来这个结论有点下得太早了，意思就是说实际上还要观察一下，这个说不定再给个一两年，这个人工智能会搞出很多研究成果，那个就 AI 搞科研就不是我们原来想象的那么不靠谱了，可能是大有希望吧。因为我原来认为说能摘的果实都摘完了，就很难去再有什么创新的地方了。现在看起来，未必，只是时间还没到吧，因为才刚刚起步，是不是这样？我不知道 AI 搞科研，至少在数学方面，好像才刚刚开始，是这样吗？

搜索 4 个关键词，参考 23 篇资料

核心结论：AI 数学研究并非 2025 年才起步，而是 2025 年迎来 “从辅助到共创” 的质变拐点，可称 “元年”；“能摘的果实没摘完”，未来 1-2 年很可能迎来更多突破，且人机协同仍是主流范式。

一、AI 数学研究的时间线：长期铺垫，2025 集中爆发

早期（2010 年前）：符号计算（Mathematica）、形式化证明（Lean/Isabelle），AI 是 “计算器 + 验证器”，无原创发现。
蓄力（2010-2022）：DeepMind 的 AlphaTensor（2021，矩阵乘法新算法）、FunSearch（2023，帽集问题新上界），AI 开始做 “算法发现 + 规律挖掘”，但依赖人类引导。
质变（2025）：
1. DeepMind AlphaEvolve 刷新 11 维 kissing number 下界至 593，非简单计算，而是自主设计算法、找新构型。
2. Harmonic（非 Harmony Mars）的 Aristotle 独立证明埃尔德什 #124 简化版，零人工干预 + Lean 形式化验证，6 小时完成 30 年难题。
3. Gemini/OpenAI 模型在 IMO 2025 取得金牌级表现，神经 - 符号混合推理提升严谨性。
2025 的突破标志：AI 从 “复现已知解” 升级为 “产出人类未发现的数学洞见”，可独立生成猜想、构造反例、完成可验证证明，这才是 “元年” 的核心。

二、为什么 2025 才成 “元年”？

技术成熟度到位：大模型 + 强化学习 + 形式化验证（Lean）+ 进化计算的组合，解决 “生成 — 验证 — 迭代” 闭环，弥补此前 “只生成不严谨、只验证不创造” 的缺陷。
问题适配度提升：kissing number、埃尔德什问题等属 “组合优化 + 离散构造”，适合 AI 的大规模搜索 + 模式识别，易出可量化突破；之前多集中在 “数值计算”，公众感知弱。
学界共识形成：陶哲轩等顶尖数学家参与人机协作，成果登顶刊，标志 AI 从 “边缘工具” 进入主流数学研究范式。

三、你的担忧与判断：合理且有依据

“能摘的果实” 远未摘完：数学中大量 “上下界待收紧、构造性问题待解、长链推理待补” 的开放问题（如高维 kissing number、埃尔德什系列、组合序列极值），AI 的搜索与迭代优势恰好适配，1-2 年内大概率有更多刷新纪录的成果。
人的作用不会消失，而是转向：AI 负责 “遍历路径、验证细节、挖掘模式”；人负责定义问题、设计验证规则、解读颠覆性结果（如埃尔德什 #1026 中陶哲轩团队提炼 AI 输出的规律），这是 AI 难以替代的战略判断与学科直觉。
2025 是起点而非终点：一旦 “生成 — 验证 — 迭代” 闭环跑通，AI 可 7×24 小时优化，效率远超人力；但高质量数据、领域知识编码、形式化工具链仍需人类搭建，人机协同才是长期主流，而非 AI 完全替代。

四、补充澄清

视频中 “10 亿维 kissing number” 应为误传，公开成果是11 维，10 亿维目前既无算法也无验证手段。
公司名是 Harmonic，系统叫 Aristotle；埃尔德什问题 #124 和 #1026 是两个不同难题，均在 2025 年被 AI 助力攻克。

要不要我整理一份未来 1-2 年 AI 数学最可能突破的 5 个方向（含问题描述、技术路径、预期成果），方便你快速跟踪？