中国字节跳动公司发布多模态条件人像视频生成框架OmniHuman,可根据图片和音频生成人物视频

2025-02-08  中国 来源:其他 作者:刘纪铖 领域:信息

关键词:

据机器之心2月5日消息,中国字节跳动公司研究团队发布多模态条件人像视频生成框架OmniHuman,可根据图片和音频生成人物视频。该研究团队通过采用混合多模态训练策略Omni-Conditions Training将文本、图像、音频以及姿态模态等多种数据输入模型进行训练,大幅增加了人像驱动模型的可训练数据。同时,该研究团队还采用了基于DiT架构的视频生成框架,使模型可以兼容多种模态的条件输入方式。实验结果表明,该框架显著优于现有方法,可在各种场景下生成生动且高质量的结果。

消息来源:https://www.jiqizhixin.com/articles/2025-02-05-11