中国DeepSeek公司发布DeepSeek-V3开源大模型,训练效率提升11倍

2025-01-07  中国 来源:其他 作者:刘纪铖 领域:信息

关键词:

据品玩网1月3日消息,中国DeepSeek公司发布DeepSeek-V3开源大模型,训练效率提升11倍。该公司采用MoE架构、多头潜在注意力机制、FP8混合精度框架等数十项优化技术以降低模型的计算需求,最终仅用2048块H800显卡耗时两个月就训练出具有6710亿参数的DeepSeek-V3模型。相较于Meta的Llama 3模型,DeepSeek-V3的训练效率提升了11倍。同时,该模型在多项评测中性能表现与GPT-4o和Claude-3.5-Sonnet接近。

消息来源:https://www.pingwest.com/a/301451