中国DeepSeek公司发布专为英伟达Hopper GPU打造的大模型加速器FlashMLA

2025-02-26  中国 来源:其他 作者:刘纪铖 领域:信息

关键词:

据AIbase网2月24日消息,中国DeepSeek公司正式发布并开源其最新技术成果FlashMLA。FlashMLA是专为英伟达Hopper架构GPU打造的高效多层注意力(Multi-Layer Attention)解码内核,并特别针对变长序列场景进行了优化,可显著提升大模型推理性能。同时,FlashMLA通过对BF16精度的全面支持,以及采用块大小为64的页式键值缓存系统,实现了更精确的内存管理。在性能表现方面,基于CUDA12.6平台,FlashMLA在H800SXM5GPU上表现突出:在内存受限场景下达到3000GB/s的处理速度,在计算受限场景下则实现580TFLOPS的算力水平。


消息来源:https://www.aibase.com/zh/news/15641