2025-02-27 中国 来源:其他 作者:刘纪铖 领域:信息
关键词:
据cnBeta网2月26日消息,中国阿里云宣布开源视觉生成基座模型万相2.1(Wan)。该模型包含14B和1.3B两种参数规格,采用了先进的DiT架构和线性噪声轨迹Flow Matching范式,并在此基础上研发了高效的因果3D VAE和可扩展的预训练策略等创新技术。特别是在3D VAE方面,开发团队通过特征缓存机制,实现任意长度视频的编码和解码,以及对无限长1080P视频的高效处理。在多个维度的测试中,万相模型均展现出卓越性能,例如在测评集VBench中,万相2.1以86.22%的总分位列第一,大幅超越包括Sora、Luma、Pika等国内外知名模型。