中国DeepSeek推出高效AI训练新方法,可显著提升AI推理能力

2026-01-05  中国 来源:https://news.aibase.com/zh/news/24218 领域:信息

关键词:

据AIbase网1月4日消息,中国DeepSeek提出名为mHC(流形约束超连接)的新架构。该架构旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。研究团队通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knop算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接(HC)在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。实验结果显示,采用新架构的模型在多项权威基准测试中表现亮眼,且性能增益仅带来了约6%-7%的额外训练开销,极具落地可行性。该方法为AI行业提供了一条不依赖于“无限堆参数”也能变强的新路径。