北理工科研团队开发生成式DNA大语言模型生成超10万bp的DNA序列

2024-11-19  中国 来源:其他 作者:戴吉 领域:生物

关键词:

据ScienceAI公众号11月16日消息,北京理工大学科研团队开发出首个生成式DNA大语言模型megaDNA,为噬菌体基因组注释和功能序列设计开辟了全新的路径。该模型利用无标注的噬菌体基因组数据进行预训练,不仅能准确预测噬菌体的必需基因,还能生成长达10万碱基对的崭新基因组片段,像写作自然语言一样生成DNA序列。该研究展示了生成式语言模型在基因组序列分析和生成上的巨大潜力,为从头设计以噬菌体等完整生物体基因组奠定了新的计算基础,有望在医疗、农业、食品安全等领域广泛应用。相关研究成果发表于Nature Communications期刊。

消息来源:https://mp.weixin.qq.com/s/cY_0UqKe98WU82ZgXAWBuA