全球技术地图

全球

欧盟

英国

中国

美国

印度

以色列

日本

其他

中国DeepSeek公司发布DeepSeek-V3开源大模型，训练效率提升11倍

2025-01-07 中国来源：其他作者：刘纪铖领域：信息

关键词：

据品玩网1月3日消息，中国DeepSeek公司发布DeepSeek-V3开源大模型，训练效率提升11倍。该公司采用MoE架构、多头潜在注意力机制、FP8混合精度框架等数十项优化技术以降低模型的计算需求，最终仅用2048块H800显卡耗时两个月就训练出具有6710亿参数的DeepSeek-V3模型。相较于Meta的Llama 3模型，DeepSeek-V3的训练效率提升了11倍。同时，该模型在多项评测中性能表现与GPT-4o和Claude-3.5-Sonnet接近。

消息来源：https://www.pingwest.com/a/301451