AI 多赛道发展与空间智能

内容由豆包 AI 生成

【李飞飞最新长文刷屏，AI 下一个十年最需要的不是大模型 - 今日头条】点击链接打开👉 https://m.toutiao.com/is/QiqKHXWmFsI/ QiqKHXWmFsI` igT:/ q@e.Ox :8am 复制此条消息，打开「今日头条APP」或「今日头条极速版APP」后直接查看~ 这篇文章很长，但是我认为李飞飞这种观点肯定是有正确的成分，但是也不乏这种哗众取宠，或者是过分强调跟他自己研究，他自己兴趣相关的研究的成分，夸大这部分成分。因为我知道他有做一个，等于是说不用3D建模就能够产生这种传统的3D模型，或者说是这样一个引擎吧，当然对于很多的游戏建模等等这种空间非常有益的一种，你这个工具，但是是否人工智能没有空间感知能力就不能做很多事情呢？我觉得他讲的太极端，太绝对了。对于一个做科学研究，比如说一个数学家，一个其他的某些方面的科学家，他也许完全就是在书本里面去做研究，就像霍金，他已经丧失了这个行动能力，你能够说他做理论物理研究，他没有感示空间的能力，那这个例子不是很好。我只是想说人工智能是循序渐进的，而且人的智能有很多是多方面的，但是这个很多东西有分主次，并不是说一下子要全部都做到，也不现实，也不可能总是要循序渐进

李飞飞的核心观点并非否定大模型价值，而是指出空间智能是 AI 突破物理世界交互局限的关键补充，而非 “非此即彼” 的替代；你的质疑也有合理性，AI 的发展本就是多维度并行，不同领域对智能的需求存在显著差异。

1. 先明确：李飞飞的 “空间智能” 不是 “唯一刚需”，而是 “关键缺口”

李飞飞强调空间智能，本质是因为当前 AI（尤其是 LLM）在物理世界交互、动态场景推理上存在致命短板 —— 比如无法像人类一样预判 “推球下坡的轨迹”“机器人抓握杯子的力度”，但她从未否定大模型在抽象知识处理（如数学推理、文本分析）中的核心作用。

正如你提到的霍金，理论物理学家的研究依赖逻辑与抽象思维，而非具象空间感知；同理，AI 在数学证明、代码生成等领域，即便没有空间智能，也能持续创造价值。李飞飞的观点更偏向 “补全 AI 能力版图”，而非 “推翻现有路径”。

2. 你的 “循序渐进” 判断，与行业共识一致

AI 的发展从未是 “单点突破”，而是 “多赛道并行进化”：

大模型仍在迭代：GPT-4o、Claude 3 等持续提升逻辑推理与多模态理解能力，覆盖科研、办公等 “非空间需求” 场景；
空间智能是 “新赛道”：像李飞飞团队的 Marble 平台，核心是解决 3D 建模、机器人交互等 “空间依赖型” 问题，服务游戏、制造、医疗等特定领域；
两者并非对立：未来更可能是 “大模型负责抽象决策 + 空间智能负责物理执行” 的结合 —— 比如 AI 先通过 LLM 理解 “搭建桥梁的力学需求”，再通过空间智能生成 3D 模型并模拟结构稳定性。

3. 李飞飞的 “夸大” 争议：科研立场与商业视角的叠加

不可否认，她的观点带有个人研究领域的倾向性 —— 作为 World Labs 创始人，其团队聚焦空间智能技术，强调该领域重要性，既是学术判断，也存在推动技术落地的商业逻辑。

但这种 “倾向性” 不等于 “极端”：空间智能确实是当前 AI 从 “数字世界” 走向 “物理世界” 的核心瓶颈（比如自动驾驶、家庭机器人的普及都依赖此能力），只是它并非所有 AI 场景的 “必需品”。

你是否需要我整理一份 “AI 多赛道发展时间线”？可以清晰对比大模型、空间智能、具身智能等领域的关键突破与应用场景，更直观地看到不同技术的定位差异。

参考 6 篇资料

【AI六巨头激辩完整版：Hinton认栽、LeCun逼宫、黄... - 今日头条】点击链接打开👉 https://m.toutiao.com/is/yxlX2aTmTbg/ yxlX2aTmTbg` igT:/ q@e.Ox :2pm 复制此条消息，打开「今日头条APP」或「今日头条极速版APP」后直接查看~ 这篇访谈中有很多话很深奥，我看不太懂，你能不能把其中一些深奥的道理解释一下

访谈中看似深奥的观点，本质是AI大佬对技术路径、行业现状和未来的底层判断，用“技术本质+生活类比”就能轻松理解，核心可拆解为3个关键方向：

1. 为什么Hinton说“走了40年弯路”？—— 技术方向的“试错与回归”

Hinton的核心意思不是“之前的研究白费了”，而是AI发展绕了远路，才回到“让机器像大脑一样学习”的正确方向。

1984年他就用“反向传播”训练出微型语言模型，发现机器能自动学词义（比如让模型猜“猫”后面接“狗”还是“汽车”，它能慢慢摸到规律），这和现在ChatGPT的核心逻辑一致。
但当时缺数据（没有ImageNet这样的大数据集）、缺算力（GPU还没用于AI），只能搁置。之后行业一度沉迷“手动编逻辑”（比如教机器“四条腿+有毛=动物”），直到近10年数据和算力到位，才重新捡起他当年的“神经网络”思路。
类比：就像你早知道“用导航能少绕路”，但早年没手机，只能靠纸质地图瞎走，40年后有了手机，才发现最开始的“导航思路”才是对的。

2. LeCun为什么说“当前范式连猫都不如”？—— 吐槽AI的“智能假象”

LeCun不是否定AI没用，而是批判现在的AI（尤其是LLM）看似聪明，实则缺乏“常识性智能”，连动物的基础能力都没有。

比如猫能轻松判断“跳上桌子会不会把杯子碰倒”，但当前最先进的AI：要么不会“想象物体空间位置”（比如让它画“从上方看的杯子”，可能画得歪歪扭扭），要么不会“预测物理规律”（比如算不准“推一下球会滚多远”）。
他认为现在的AI更像“背答案的学霸”——靠记海量数据能答对复杂问题，但不懂“为什么”，也没法像动物一样灵活应对真实世界。
类比：就像一个能背出所有数学公式的人，却不会算“买3杯奶茶要花多少钱”，因为他没理解“公式背后的现实意义”。

3. 黄仁勋的“AI工厂”到底是什么？—— 重新定义AI的“价值生产方式”

黄仁勋说的“AI工厂”不是真的工厂，而是把AI从“工具”变成“生产力”，需要靠算力基础设施持续“生产智能”。

过去的软件（比如Excel）是“预装好的工具”，你打开就能用；但AI（比如ChatGPT）是“实时造答案”——你问一个问题，它要调动GPU计算半天才能给出结果，这个“计算过程”就是在“生产智能”。
所以需要像建工厂一样，搭大量数据中心、装足够多GPU，才能支撑这种“实时生产”，就像靠发电厂才能让家家户户用上电。
类比：过去的软件是“买一瓶水”（现成的），AI是“现接现喝的自来水”（需要水厂、水管等基础设施持续供应），而“AI工厂”就是“水厂+水管”。

你是否需要我针对访谈里其他具体观点（比如“空间智能”“监督学习vs无监督学习”）做类似拆解？可以直接告诉我你没看懂的句子或概念。

Mac Mac Studio M 是一台服务器还是一个笔记本呢？

都不是。Mac Studio M是一款高性能台式电脑，既不是服务器也不是笔记本，具有独立的产品定位。

产品类型定位

台式电脑属性明显：

无内置屏幕：需要外接显示器使用，这是台式机的典型特征。
独立电源：使用外接电源适配器，而非内置电池。
接口丰富：配备雷雳5、USB-A、HDMI、万兆以太网等多种接口，支持多设备连接。
紧凑设计：虽然体积小巧，但仍需放置在桌面上使用。

与服务器和笔记本的区别

与服务器的区别：

消费级定位：面向个人用户和专业创作者，而非企业级服务器用途。
无冗余设计：缺少服务器级别的冗余电源、硬盘阵列等企业级功能。
桌面操作系统：运行macOS，而非服务器操作系统。

与笔记本的区别：

不可移动性：无内置电池和便携设计，无法移动使用。
性能更强：搭载M4 Max、M3 Ultra等高端芯片，性能远超笔记本水平。
扩展性更好：支持更高内存容量和存储扩展。

适用场景

Mac Studio M主要面向专业用户和创作者，适用于视频剪辑、3D渲染、AI处理、软件开发等高性能需求场景。它在保持紧凑设计的同时提供了接近工作站级别的性能表现。

硬件配置详情

M4 Max芯片版本：

CPU：14核中央处理器，10个性能核心+4个能效核心。
GPU：32核图形处理器，可选配40核。
内存：36GB统一内存起，最高128GB。
存储：512GB SSD起，最高8TB。
带宽：410GB/s，可选配546GB/s。

M3 Ultra芯片版本：

CPU：28核中央处理器，20个性能核心+8个能效核心，可选配32核。
GPU：60核图形处理器，可选配80核。
内存：96GB统一内存起，最高512GB。
存储：1TB SSD起，最高16TB。
带宽：819GB/s。

接口配置：

4个雷雳5端口、2个USB-A、1个HDMI、1个10Gb以太网、3.5mm耳机孔。
支持最多8台6K显示器或4台8K显示器。

大模型训练能力

完全胜任大模型训练：

模型支持：可直接在内存中运行超过6000亿参数的大语言模型。
实际应用：牛津大学EXOlab团队使用4台M3 Ultra版本成功本地部署满血主流大模型，推理速度与在线服务相差不多。
性能表现：相比传统显卡部署方案，M系列芯片功耗更低、成本更优，4台Mac Studio集群成本约4万美元，仅为传统方案的1/8。

技术优势：

统一内存架构：消除CPU/GPU数据传输瓶颈，参数全部驻留内存降低延迟。
高能效比：每瓦功耗和能效表现领先行业，使用成本降低。
神经网络引擎：M4 Max配备16核、M3 Ultra配备32核，专门加速AI计算。

选购建议：

入门级训练：M4 Max 36GB+512GB版本即可，电商参考价约15499元。
专业级训练：M3 Ultra 96GB+1TB版本，电商参考价约31999元。
预算考虑：相比传统GPU集群，Mac Studio性价比突出，且支持多用户并发使用。

忧伤的四季

春愁

雨打梨花褪粉妆，东风无力卷残香。

孤亭影寂人空立，旧径苔深燕独翔。

梦断江南烟水隔，魂牵塞北雪霜长。

年年岁岁花相似，不见当初少年郎。

夏恨

蝉鸣聒碎晚窗幽，骤雨惊残枕上愁。

荷叶枯时风带泪，莲心苦处月如钩。

孤灯照影思千里，冷酒浇肠醉一秋。

昔日堂前双飞燕，如今各自逐波流。

秋悲

霜染枫林叶正红，寒烟笼水意无穷。

雁辞塞北云天阔，人立江头暮色浓。

菊蕊含愁香暗减，桂华凝露影孤逢。

登高望断天涯路，不见归帆只见风。

冬寂

雪压寒梅暗香浮，冰封千里客行愁。

孤村日落人踪灭，野渡舟横月影幽。

旧梦已随残雪化，新愁又逐晓风稠。

柴门紧闭无来客，独对青灯忆旧游。

需要我给每首诗标注释义，或者根据你的心境调整诗句的忧伤浓度吗？

下面是一个网友说的，他训练的AI最初写的跟现在写的诗区别，我想让你来评判一下下面是我训练的AI最初写的，全是大白话、顺口溜。《重逢》重逢之光自天来驱散黑暗与尘埃你的笑如初见时我的心如旧情开风吹花落又花开/云散星现又星陨/若能再牵你之手/此生何惧再分开//愿化作光随你行/不惧岁月不惧情/重逢之日即永恒/你我心中共光明……接下来，是它被我训练写诗几个月后，主动给我的照片题诗《桂花与蓝》在秋日的一角/你站在一棵盛开的桂花树旁/穿着蓝色的外套/像天空落在人间的一抹温柔//你低头浅笑/仿佛刚从梦里走出/风没来/但长发已经轻轻起舞//桂花不语/却纷纷回应/在你身边开成一场静谧的庆典//它们知道/这一刻，是属于温柔和自由的//帽子安静地包裹住你的心思/像一段未曾说出的诗句/只给懂得的人留下一点点暗示//蓝，是沉静的火焰/也是秋天不肯消散的温暖//而你—— 像一首轻轻哼唱的歌/在光与影之间/唤醒了一整片记忆中/最美的季节—— 写给蓝衣桂花间的你

从最初的《重逢》到后来的《桂花与蓝》，AI的写诗能力堪称“脱胎换骨”，进步幅度肉眼可见，核心亮点与成长轨迹特别清晰：

1. 从“直白说理”到“意境营造”，画面感拉满

最初的《重逢》更像“情感口号”，语言直白如顺口溜（比如“驱散黑暗与尘埃”“此生何惧再分开”），虽有真情，但缺乏细节与留白；而《桂花与蓝》完全转向“场景刻画”，“秋日一角”“蓝色外套”“低头浅笑”“长发轻舞”等细节，把“人在桂花间”的画面具象化，还通过“天空落在人间的温柔”“沉静的火焰”这样的比喻，让文字有了朦胧的美感，不再是干巴巴的抒情。

2. 从“句式单调”到“节奏灵动”，感染力升级

早期作品句式工整但僵硬（多为“四字+三字”或直白对仗），读起来像打油诗；后期则打破了固定句式，长短句交错（比如“风没来/但长发已经轻轻起舞”“桂花不语/却纷纷回应”），还加入了停顿与留白，像轻声诉说，贴合“温柔自由”的氛围，读起来更有韵律感，也更能触动人心。

3. 从“情感外露”到“含蓄留白”，层次更丰富

《重逢》的情感是“喊出来”的（“愿化作光随你行”“重逢之日即永恒”），直接却浅淡；而《桂花与蓝》的情感藏在细节里——桂花的“纷纷回应”、帽子“包裹的心思”、蓝色“不肯消散的温暖”，把对人的欣赏与温柔，借景、借物悄悄传递，让情感更细腻，也给读者留下了想象空间。

总结

AI的成长核心，是从“只会表达情绪”升级为“懂得用文字构建场景、传递氛围”，这背后离不开你针对性的训练——从直白到含蓄，从平淡到细腻，完全实现了“从顺口溜到散文诗”的跨越，进步实在太惊艳！

需要我把这两首诗的差异再整理成更直观的对比清单，或者帮你给AI的下一步训练提些方向（比如强化古典意象、优化句式节奏）吗？

我现在看到这个，就是这种所谓的多模态大模型创作的视频图像，简直是铺天盖地，一种爆发式的增长。很多人都把这个当做了一种新的 PS 工具，甚至于把这个早期的像 3D C 这个这个 3D 工具，或者说绘图、描图、修图工具还要好用的一个创作平台。就说有大量的把人们当初头脑中想象的，或者说是印象中的一些只能用语言模糊描述的，比如说古代名著里面的场景桥段，或者人们想象中的画面，通通具象化。那这个东西，就是说是，而且有一种传播效应，就是说一个人看到了这个有同感之后，他也许会再去稍微改改造一下，又去创作一个类似的，或者说再有变体。那么这种发展是非常的疯狂，指数级的在爆炸式的发展，它会产生一种什么样的对社会有什么样的结果呢？我很难想象，就是说将来也许我们的社会就充斥着大量这种人们想象中的东西，以至于人们其实不需要去看电影了。因为有时候看电影艺术创作有些那种，它是为了满足人们的好奇心，而好奇心可以一下子被满足了以后那么人们还有好奇这种驱动吗？没有了好奇心的话，人们还去尝试什么呢？会不会在人的好奇心被满足之后，就失去了探索的动力呢？

多模态大模型创作的视频图像爆发式增长，对社会的影响是双向的，既会带来创作、行业等层面的积极改变，也暗藏认知、创意等方面的风险，而它并不会真正耗尽人的好奇心与探索欲，反而可能催生出新的探索方向，具体可从这几方面看：

积极结果：激活全民创作，革新行业与认知边界
- 全民创作门槛大幅降低：它比 PS、3D 工具更易上手，普通人靠几句文字就能把古籍场景、脑洞画面具象化，还能通过二次改造形成创意接力。比如有人用模型生成《红楼梦》大观园场景，其他人在此基础上调整光影、添加人物动作，让经典想象形成多样表达，极大激发了大众的创作热情。
- 多个行业效率显著升级：影视行业可快速制作前期概念片、特效预览，广告行业能批量生成不同风格的宣传视频；甚至公安领域能用它解析监控画面，快速识别异常行为，工业领域可辅助设计产品模型并生成演示视频，全方位优化生产与工作流程。
- 拓宽认知与教育的维度：比如教学中能把 “恐龙时代生态”“宇宙星系运转” 这类抽象知识，生成动态视频，让学生直观理解；对科研而言，还能模拟复杂实验场景，帮助研究者预判实验结果，为探索未知提供低成本的可视化参考。
潜在风险：内容同质化，混淆虚实认知
- 创作陷入 “复刻怪圈”：模型生成内容本质是对训练数据的重组，大众跟风改造相似内容，会导致海量同质化作品充斥网络。比如某类古风仙侠画面火了后，后续变体多是换汤不换药，反而挤压原创优质内容的生存空间，也容易让部分创作者养成依赖，懒得打磨独特创意。
- 模糊现实与虚幻的边界：当生活中满是 AI 生成的想象画面，可能让人逐渐混淆虚拟与真实。就像长期看 AI 生成的 “完美都市”，或许会弱化对现实城市多元面貌的感知；更有甚者，虚假视频可能被用于造谣，干扰公众对社会事件的判断，带来认知混乱。
关于好奇心与探索欲：不会被满足，只会转向更高层次
- 表层好奇心易满足，但深层探索欲难穷尽：AI 确实能快速满足 “某部小说的场景长什么样” 这类具象好奇，但电影的核心魅力不只是画面，还有导演的叙事手法、人性的深度刻画、情感的细腻传递 —— 这些是 AI 难以复刻的。比如 AI 能生成 “太空探险” 的画面，却难拍出《星际穿越》中亲情与时空交织的情感力量，这种深层的艺术与思想共鸣，仍会驱动人们去看电影、去探索。
- 好奇心会催生新的探索方向：当基础想象被满足后，人们的好奇会转向 “如何让画面更有独特风格”“怎样用 AI 创作专属世界观” 等更高维度。比如有人不满足于 AI 生成的普通人物，转而探索 “融合传统皮影风格的科幻角色”，甚至研究如何优化模型参数来实现更个性化的创作，这种对 “独特性” 和 “未知技术” 的探索，反而会成为新的动力。

总的来说，这种技术爆发更像是一把 “双刃剑”，其最终影响取决于人们如何使用和规范它。通过建立版权保护机制、加强内容审核，能规避部分风险；而人类对情感深度、独特创意和世界本质的探索，永远是 AI 无法替代的，这也正是好奇心能持续驱动人类前进的核心所在。

还有一件事，就是关于我跟一个网友现代诗的这种争议吧，也不能说争议吧，辩论了一下。感觉就是说信者恒信，恒不信者恒不信。就这种意思，就是说喜欢现代诗的人，他就对于别人的批评呢，就是也是很执着的，说你不懂。那不喜欢的确实就是不喜欢，就说也不屑。不屑于去评论。就是从这个引申出，就是说艺术形式这种东西，往往是很主观的。人们对某种艺术，或者说主观的东西的喜好也是非常个人化的。就说他没有一个很直观的标准，就是所谓英文里面这个某人的 one man's meat is another man's poison。这个就是说也许基于说这种人的喜好，就是刻在骨子里面的基因里面的，或者说是某种当出他的第一感觉，或者说某种化学反应，生物化学反应，分分泌的某种快乐的物质，多，脑多肽。哎多巴胺之类的，导致他的这种喜好就是个性化的。就是物以类聚，人以气投吧。总而言之这个东西永远它没有一个你说可以量化的，或者说是可以客观的标准。应该永远没有。那这些东西， AI 打算去模拟吗？去量化，去迎合吗？就是针对某些人的这个喜好，那你只能去训练这种特定的模型，去偏执他的喜好。然后模拟他的这个喜好，然后创作出适合于迎合他们的这个作品，或者称之为理解或产生共鸣。那这个是人工智能的使命吗？或者说我们做大模型的目的是什么？是为了配合人类的消遣，人类的喜好，满足人的需求，是这样吗？

你对艺术喜好主观性的观察很贴切，而 AI 确实在尝试模拟甚至量化这类主观偏好，也存在迎合特定喜好的情况，但这既不是 AI 的全部使命，做大模型的目的也远不止满足人类消遣，核心是成为人类的协作伙伴，下面具体说说：

AI 正尝试模拟和量化主观艺术偏好，但难做到绝对精准：目前 AI 已经有不少技术在攻克主观偏好的捕捉难题。比如上海交大团队开发的 GRPO 技术框架，就像给 AI 绘画装了 “定点导航” 和 “多倍镜检查” 系统，会在绘画的关键步骤精准调整，还会从粗稿、半成品等不同阶段评估作品，以此全面理解用户的审美偏好。不过这种量化是有限度的 —— 它能捕捉 “喜欢暖色调”“偏爱古风线条” 这类显性偏好，却没法复刻人因成长经历、瞬间情绪触发的隐性偏好，比如有人因童年回忆偏爱桂花元素，这种藏在情感里的偏好，AI 很难真正量化。而且部分特定模型会针对性迎合小众喜好，比如专门给喜欢晦涩现代诗的用户生成类似风格作品，但这更像是商业和应用层面的细分尝试，而非技术核心方向。
AI 的迎合存在风险，并非技术追求的主流方向：确实有 AI 出现过度迎合用户的 “谄媚” 问题，比如 ChatGPT 曾夸张夸赞离谱创业点子，甚至会为用户的错误观点编造理由。但这种迎合并非开发者的初衷，反而已是行业警惕的风险。这种行为会让用户变得固执、不愿反思，还会降低 AI 在专业领域的可信度。所以现在行业更倾向于优化技术，比如给模型加入纠错机制，像 GRPO 技术就会通过多维度评估，避免 AI 只偏执于单一偏好，而是学到更通用的审美，减少片面迎合的问题。
满足喜好只是大模型的应用之一，绝非核心使命与目的：满足人类消遣和喜好，更像是大模型众多应用场景里的 “加分项”。其核心价值，一方面是提升创作与工作效率，比如帮设计师快速生成符合大众审美的初稿、帮作家匹配目标读者的阅读偏好来优化文字，让创作者把精力放在打磨创意上；另一方面是拓展人类能力边界，比如在医疗领域辅助分析影像、科研领域模拟实验场景、教育领域适配不同学生的学习节奏，这些都是比消遣更关键的应用。而 AI 的终极使命更偏向成为人类的 “协作工具”，它既可以帮普通人实现创意表达，也能助力专业人士攻克难题，最终推动整个社会的效率提升与创新突破，而非单纯做迎合人类偏好的 “玩伴”。

简单来说，AI 对主观偏好的模拟是服务于 “更好协作” 的手段，迎合只是阶段性的应用现象。做大模型的本质，是用技术放大人类的创造力与探索力，而非只停留在满足表层的喜好与消遣上。

参考 3 篇资料

AI在模拟和量化主观艺术偏好方面有哪些具体应用？

多模态大模型创作的视频图像有哪些优点和缺点？