2023-01-11 美国 来源:其他 作者:唐乾琛 领域:信息
关键词:
据新智元公众号1月3日消息,美国Meta公司发布多模态自监督学习框架data2vec 2.0,训练效率最高提升16倍。自监督学习算法通常具有明显的局限性,通常只适用于单一模态(如图像、文本、语音等)的数据,并且需要大量的算力从海量数据中进行学习,而data2vec 2.0模型可以将语音、视觉和文本这3个模态的数据通过一个框架整合起来。该模型拥有一个“教师网络”,首先处理来自图像、文本或语音的目标表征,然后对数据进行掩码,遮盖掉部分输入,并用一个“学生网络”重复该过程,预测“教师网络”得到的表征。“学生网络”只能在接受不完整输入信息后预测完整输入数据。data2vec 2.0在预测数据时,更加注重上下文的关联,或是神经网络的层次,而非预测图像的像素、文本段中的词或语音。研究人员认为,结合上下文的目标会促进更丰富的学习任务,并使data2vec 2.0比其他模型算法学习得更快。