全球技术地图

全球

欧盟

英国

中国

美国

印度

以色列

日本

其他

中国字节跳动公司发布多模态条件人像视频生成框架OmniHuman，可根据图片和音频生成人物视频

2025-02-08 中国来源：其他作者：刘纪铖领域：信息

关键词：

据机器之心2月5日消息，中国字节跳动公司研究团队发布多模态条件人像视频生成框架OmniHuman，可根据图片和音频生成人物视频。该研究团队通过采用混合多模态训练策略Omni-Conditions Training将文本、图像、音频以及姿态模态等多种数据输入模型进行训练，大幅增加了人像驱动模型的可训练数据。同时，该研究团队还采用了基于DiT架构的视频生成框架，使模型可以兼容多种模态的条件输入方式。实验结果表明，该框架显著优于现有方法，可在各种场景下生成生动且高质量的结果。

消息来源：https://www.jiqizhixin.com/articles/2025-02-05-11