中国智源人工智能研究院发布多模态世界大模型Emu3.5,摘得多模态SOTA

2025-10-31  中国 来源:https://www.pingwest.com/w/308683 领域:信息

关键词:

据品玩网10月30日消息,中国智源人工智能研究院发布多模态世界大模型Emu3.5。该模型在“Next-Token Prediction”范式的基础上,模拟人类自然学习方式,以自回归架构实现了对多模态序列的“Next-State Prediction”,获得了可泛化的世界建模能力。具体来看,Emu3.5在超10万亿token的大规模多模态数据基础上展开训练,其视频数据训练量时长从15年到跃升至790年,参数量从8B上升至34B,揭示了原生多模态Scaling范式。推理时,Emu3.5创新性地运用“离散扩散自适应”(Discrete Diffusion Adaptation,DiDA)技术,可在不牺牲性能的前提下,将每张图片的推理速度提升近 20 倍,首次使自回归模型的生成效率媲美顶尖的闭源扩散模型。Emu3.5在多项权威基准测评上表现突出,性能媲美甚至超越Gemini-2.5-Flash-Image,在文本渲染和多模态交错生成任务上优势尤其显著。