全球技术地图

全球

欧盟

英国

中国

美国

印度

以色列

日本

其他

美国斯坦福大学开发出一种更快、更经济的大型语言模型训练方法

2023-07-06 美国来源：其他作者：唐乾琛领域：信息

关键词：

据TechXplore网7月3日消息，美国斯坦福大学研究人员开发出大型语言训练方法Sophia。这是一种优化大型语言模型预训练的新方法，其速度是当前方法的两倍，同时具有更高经济性。研究人员采取两种策略来构建Sophia方法。第一个策略是曲率估计。曲率指的是模型程序的工作负载，如果能对其进行估计，将使得模型预训练更加高效。第二个优化策略是“裁剪”，这解决了曲率估计不准确带来的效率降低问题。裁剪策略通过设置阈值或最大曲率估计来防止估计不准确。Sophia方法有望降低大型语言模型的训练成本，拓展大语言模型在实际场景中的应用。

消息来源：https://techxplore.com/news/2023-07-team-faster-cheaper-large-language.html