2025-02-27 中国 来源:其他 作者:刘纪铖 领域:信息
关键词:
据AIbase网2月25日消息,中国DeepSeek公司开源首个专为混合专家模型(MoE)训练和推理设计的开源EP(专家并行)通信库DeepEP。DeepEP提高了高吞吐量和低延迟的多对多GPU内核,支持节点内和节点间的NVLink和RDMA通信。同时,DeepEP还支持FP8等低精度操作,特别针对DeepSeek-V3论文中的组限制门控算法进行了优化,并引入了基于Hook的通信-计算重叠方法,不占用GPU计算资源。根据性能测评结果,DeepEP低延迟内核在推理解码阶段表现出色,延迟低至163微秒,带宽为46GB/s。