全球技术地图

全球

欧盟

英国

中国

美国

印度

以色列

日本

其他

中国DeepSeek公司发布专为英伟达Hopper GPU打造的大模型加速器FlashMLA

2025-02-26 中国来源：其他作者：刘纪铖领域：信息

关键词：

据AIbase网2月24日消息，中国DeepSeek公司正式发布并开源其最新技术成果FlashMLA。FlashMLA是专为英伟达Hopper架构GPU打造的高效多层注意力（Multi-Layer Attention）解码内核，并特别针对变长序列场景进行了优化，可显著提升大模型推理性能。同时，FlashMLA通过对BF16精度的全面支持，以及采用块大小为64的页式键值缓存系统，实现了更精确的内存管理。在性能表现方面，基于CUDA12.6平台，FlashMLA在H800SXM5GPU上表现突出：在内存受限场景下达到3000GB/s的处理速度，在计算受限场景下则实现580TFLOPS的算力水平。

消息来源：https://www.aibase.com/zh/news/15641