美国谷歌公司推出全新向量量化压缩算法,模型推理速度提升达8倍

2026-03-27  美国 来源:https://news.aibase.com/zh/news/26595 领域:信息

关键词:

据AIbase网3月26日消息,美国谷歌公司推出全新向量量化压缩算法TurboQuant。该算法通过创新的PolarQuant与QJL技术,将大语言模型推理过程中的键值缓存内存需求降至原来的六分之一,在英伟达H100芯片上进行注意力计算时,速度提升达8倍,且在多项长上下文基准测试中实现零精度损失。这一突破性进展有望大幅降低AI部署成本,加速长上下文应用落地。