2023-07-06 美国 来源:其他 作者:唐乾琛 领域:信息
关键词:
据TechXplore网7月3日消息,美国斯坦福大学研究人员开发出大型语言训练方法Sophia。这是一种优化大型语言模型预训练的新方法,其速度是当前方法的两倍,同时具有更高经济性。研究人员采取两种策略来构建Sophia方法。第一个策略是曲率估计。曲率指的是模型程序的工作负载,如果能对其进行估计,将使得模型预训练更加高效。第二个优化策略是“裁剪”,这解决了曲率估计不准确带来的效率降低问题。裁剪策略通过设置阈值或最大曲率估计来防止估计不准确。Sophia方法有望降低大型语言模型的训练成本,拓展大语言模型在实际场景中的应用。
消息来源:https://techxplore.com/news/2023-07-team-faster-cheaper-large-language.html