2025-02-20 美国 来源:其他 作者:刘纪铖 领域:信息
关键词:
据AIbase网2月17日消息,美国Meta公司研究团队提出一款名为“连续概念混合”(CoCoMix,Continuous Concept Mixing)的新颖预训练框架。该方法保留了下一个token预测的优点,还通过引入稀疏自编码器(SAE)中学习到的连续概念,提升了模型的学习效率和表现。具体来看,CoCoMix通过选择最具影响力的概念,将其与token的隐藏表示交错结合,形成了一个全新的学习机制。测评结果显示,CoCoMix在训练token数量减少21.5% 的同时,仍能达到与传统token预测相当的性能。此外,CoCoMix具备的可解释性和可操控性也为进一步的模型分析优化提供了新视角。该框架有望成为未来自然语言处理领域的关键工具,推动AI朝更智能的方向演进。