前段时间,谷歌 TurboQuant 的消息刷遍科技圈,号称靠着 3 比特 KV 缓存量化的 “黑科技”,直接让存储股一天蒸发 6200 亿,华尔街一边热炒,一边又痛批市场不懂技术,看似是一场颠覆性的 AI 技术革命,可深究下来,这背后根本不是什么原创突破,反倒藏着学术圈少为人知的套路,以及被过度夸大的技术真相。
先简单说清 TurboQuant 到底是什么,它是谷歌纽约研究团队推出的,主打大模型推理阶段KV 缓存 3 比特无损量化,宣称能把缓存内存压缩到原来的 1/6,还能大幅提升推理速度,对外包装成解决 AI 显存瓶颈、颠覆存储行业的革命性技术。可但凡深入了解行业技术进展和这个团队背景,就会发现,这不过是 “旧瓶装新酒”,再加上刻意的宣传造势,才闹出了这么大的动静。
TurboQuant 所谓的核心技术,根本算不上谷歌原创。早在两年前,苏黎世联邦理工学院 + 新加坡南洋理工大学的高健扬团队,就已经推出了 RaBitQ 算法,核心思路同样是随机旋转结合 JL 变换做低比特量化,不仅理论上证明了渐近最优,还同步开源了完整的 C++ 高性能代码,发表在数据库顶会 SIGMOD 上,是实打实经过学术验证和开源检验的成果。而谷歌 TurboQuant 的核心技术路线,和 RaBitQ 高度重合,却刻意回避引用前者,甚至在对比实验中耍尽手段,把 RaBitQ 的未优化 Python 版本、单核 CPU 运行,和自己全优化 GPU 版本的 TurboQuant 做对比,造出 “性能碾压” 的假象,本质就是拿别人的成熟思路,做了点工程包装,就标榜成自己的原创黑科技。
再说说这个打造 TurboQuant 的谷歌纽约团队,更是科技圈里典型的 “论文工厂” 风格。团队核心负责人是谷歌 Fellow Vahab Mirrokni,成员多为伊朗裔、韩裔研究人员,和谷歌山景城主打产品落地、硬核工程的团队不同,纽约这支团队完全重理论、重顶会发表、重宣传包装,轻工程落地、轻开源复现。之前他们推出的 Titans 系统,号称能实现 200 万 token 超长上下文,听起来是史诗级突破,可直到现在,既没有开源代码,也没有第三方能独立复现,更没有任何谷歌内部产品落地的实锤,纯纯是实验室里的概念产物,靠着论文和宣传博眼球,这次的 TurboQuant,完全是一模一样的套路。
很多人会疑惑,既然技术不是原创,那 3 比特量化本身总有价值吧?客观来说,3 比特的 KV 缓存压缩,确实是不错的工程优化,但它的实际影响力,被无限夸大了。首先要分清一个关键问题:TurboQuant 优化的是KV 缓存,和微软做到的 1.5 比特权重量化完全是两码事。KV 缓存针对的是模型推理时的上下文中间数据,只在超长上下文场景下,才会占据大量显存,普通的日常对话、短文本交互,KV 缓存占显存的比例本就不高,优化效果微乎其微;而权重量化是直接压缩模型本身,是从根源上解决显存需求、覆盖所有场景的核心优化,两者的技术价值和实际冲击力,根本不在一个层面。
而且,低比特 KV 量化本就不是新技术,2024 年行业里就有 RaBitQ、KVQuant 等多款方案做到了 4 比特及以下的无损压缩,TurboQuant 的 3 比特只是小幅迭代,并非理论突破。如果这项技术真有宣传中那么颠覆,去年 RaBitQ 推出时就该引发行业震动,根本轮不到谷歌今年拿来包装后才爆火。说到底,这场风波的核心,从来不是技术本身的优劣,而是谷歌团队刻意的学术不端和市场炒作。
这也是 TurboQuant “爆火却没用” 的核心原因。它的火爆,全靠谷歌的公关造势、资本市场的情绪炒作,可落到实际应用层面,至今没有开源代码、没有第三方公平复现、没有真正的生产级落地。所谓的性能优势,不过是靠着 GPU 硬件优化和不公平的实验对比,把工程优势包装成了算法优势,并非技术本身有质的飞跃。再加上这支团队一贯的 “重论文、轻落地” 风格,TurboQuant 大概率和 Titans 一样,最终只是停留在论文里的概念,很难真正走进 AI 实际应用场景。
其实科技圈向来不缺这类 “伪突破”,真正的技术创新,从来都是开源可复现、公平可对比、落地可实用的,而不是靠着抹除前人成果、实验作弊、过度宣传造出来的神话。TurboQuant 这场闹剧,也撕开了学术圈部分 “论文工厂” 的遮羞布,看似光鲜的顶会成果、震撼的技术数据,背后或许只是经不起推敲的虚火,大家看待这类所谓的 “黑科技”,还是要多一分理性,少被资本和宣传带偏。