美国微软公司推出AI语音模型,仅需3秒音频训练即可模仿人类声音

2023-01-12  美国 来源:其他 作者:唐乾琛 领域:信息

关键词:

据Byteclicks网1月11日消息,美国微软公司推出名为VALL-E的语音生成模型,仅需3秒音频训练即可模仿人类声音。微软基于音频库LibriLight训练VALL-E模型,该音频库包含来自LibriVox有声读物的6万小时英语演讲。VALL-E模型通过匹配被模仿者与语音库中7000人的声音,找到与之高度相似的声音来进行准确生成。VALL-E可以模仿说话者的情绪和语气,即使说话者本人未说过的单词也可以模仿。考虑到潜在的滥用风险,微软公司尚未将VALL-E模型开源。

消息来源:https://byteclicks.com/45265.html