2025-03-04 中国 来源:其他 作者:刘纪铖 领域:信息
关键词:
据MIT科技评论3月2日消息,韩国科学技术院和DeepAuto.ai公司组成的联合研究团队研发出可降低GPU内存的大模型推理框架InfiniteHiP。该框架有效解决了长上下文大模型推理中的三个主要挑战:首先,InfiniteHiP能在推理过程中将键值(KV,Key-Value)缓存置于主机内存,从而显著降低GPU内存压力。其次,InfiniteHiP能在单个英伟达L40s 48GB GPU上处理多达300万个tokens,并且不会永久丢失上下文信息,研究人员已利用InfiniteHiP在100万个tokens上下文中实现了18.95倍的注意力解码加速,并且无需额外训练。最后,InfiniteHiP能高效地利用长上下文,通过模块化分层tokens修剪算法,动态消除不相关的上下文tokens,从而提高模型效率。