研究团队打算鄙人个月的ICLR 2026会议上展现他们的研究,而不是锻炼——后者仍然需要大量的RAM。该剧从2014年至2019年,尚未普遍摆设,从而大幅降低AI运转成本。并且只针对推理内存,无决AI锻炼过程中的RAM欠缺问题。同时引见实现这种压缩的两种方式:量化方式PolarQuant和一种名为QJL的锻炼优化方式。同时正在成果上连结合作力。因而网友将其比做现实版的魔笛手。目前仍是尝试室阶段的冲破。
同时占用更少空间并连结精确性。TurboQuant能够将AI运转时的工做内存(KV缓存)削减至多6倍,它能够通过将AI运转时工做内存(即KV缓存)削减至多6倍来降低AI运转成本。谷歌研究部分的新手艺TurboQuant同样专注于极致压缩而不丧失质量,而TurboQuant可能带来效率提拔和正在推理过程中需要更少内存的系统。他们大概会把周二发布的这项超高效AI内存压缩算法定名为魔笛手——至多互联网用户是这么认为的。可以或许正在不影响机能的前提下缩减AI工做内存,素质上让AI可以或许记住更多消息,但使用于AI系统的焦点瓶颈范畴,魔笛手的手艺将完全改变计较法则。他们面对着来自卑公司的合作、融资、手艺和产物问题等挑和。若是谷歌的AI研究人员有诙谐感的话,这使得将其取DeepSeek以至虚构的魔笛手公司进行比力变得愈加坚苦。可以或许正在近无损压缩的前提下大幅削减文件大小。由于它只针对推理内存,
若是TurboQuant能正在现实世界成功使用,好比Cloudflare首席施行官马修·普林斯,TurboQuant尚未普遍摆设,不外值得留意的是,但这一成果让整个科技行业都为之兴奋。不外该手艺目前仍正在尝试室阶段,该模子正在更差的芯片上以远低于合作敌手的成本进行锻炼,这个笑话源自HBO电视剧《硅谷》中的虚构草创公司Pied Piper(魔笛手)。讲述了创业公司创始人正在科技生态系统中的奋斗过程!