美国斯坦福大学开发出一种更快、更经济的大型语言模型训练方法

2023-07-06  美国 来源:其他 作者:唐乾琛 领域:信息

关键词:

据TechXplore网7月3日消息,美国斯坦福大学研究人员开发出大型语言训练方法Sophia。这是一种优化大型语言模型预训练的新方法,其速度是当前方法的两倍,同时具有更高经济性。研究人员采取两种策略来构建Sophia方法。第一个策略是曲率估计。曲率指的是模型程序的工作负载,如果能对其进行估计,将使得模型预训练更加高效。第二个优化策略是“裁剪”,这解决了曲率估计不准确带来的效率降低问题。裁剪策略通过设置阈值或最大曲率估计来防止估计不准确。Sophia方法有望降低大型语言模型的训练成本,拓展大语言模型在实际场景中的应用。

消息来源:https://techxplore.com/news/2023-07-team-faster-cheaper-large-language.html