使用 Voicebox 的高级 AI 语音生成
Meta 的 Voicebox 是一个尖端的 AI 模型,旨在实现多功能的语音生成,在超出其训练的任务中表现出色。它采用了一种称为流匹配的新方法,使其能够在无需标记数据的情况下学习文本与语音之间的复杂映射。这种能力使 Voicebox 能够合成各种风格和六种语言的高质量音频,包含噪声去除和内容编辑等功能。它的灵活性扩展到修改音频样本的任何部分,使其适合多种应用,如文本转语音合成和跨语言风格转移。此外,与现有模型相比,Voicebox 在单词错误率和音频相似性指标方面表现优越,标志着 AI 语音技术的重大进步。