西湖大学开发并开源基于结构词表的蛋白质通用大模型

2024-04-23  中国 来源:其他 作者:戴吉 领域:生物

关键词:

据ScienceAI公众号4月19日消息,西湖大学科研团队使用目前最多的4000万个蛋白质结构,在64张A100上训练了3个月,最终开源了具备650M参数量的模型SaPro。该模型利用Foldseek将蛋白质结构进行编码,并使用结构嵌入方式构建出新的结构感知词表,以此训练增强模型的表征能力。实验结果表明该模型蕴含丰富的结构信息,在各种蛋白质结构预测等任务的表现远超ESM-2等之前的序列和结构模型。

消息来源:https://mp.weixin.qq.com/s/pB2qJOMHilM7ETz1XwjWuw