当前位置:首页 > 技术研究 > 正文内容

只需5秒音源,这个网络就能实时“克隆”你的声音

陈雄9个月前技术研究4960

传统的自然语音合成系统在训练时需要大量的高质量样本,通常对每个说话者,都需要成百上千分钟的训练数据,这使得模型通常不具有普适性,不能大规模应用到复杂环境(有许多不同的说话者)。而这些网络都是将语音建模和语音合成两个过程混合在一起。本文工作首先将这两个过程分开,通过第一个语音特征编码网络(encoder)建模说话者的语音特征,接着通过第二个高质量的TTS网络完成特征到语音的转换。

两个网络可以分别在不同的数据集上训练,因此对训练数据的需求量大大降低。对于特征编码网络,其关键在于声纹信息的建模,即判断两段语音为同一人所说,因此可以从语音识别(speaker verification)任务进行迁移学习,并且该网络可以在带有噪声和混响的多目标数据集上训练。

为了保证网络对未知(训练集中没有的)说话者仍然具有声音特征提取能力,编码网络在18K说话者的数据集上训练,而语音合成网络只需要在1.2K说话者的数据集上训练。

网络结构

RhidydB6Zjs4WI.jpg

GitHub标星近10万:只需5秒音源,这个网络就能实时“克隆”你的声音

语音相似度

为了验证合成语音与原始说话者语音是否相似,对每个说话者的每段语音,都随机选择另一段语音作为真值,然后评估他们的相似度:

GitHub标星近10万:只需5秒音源,这个网络就能实时“克隆”你的声音

总结

本文提出的语音合成网络,能对训练不可见的说话者进行声音合成,并且仅仅依赖于说话者的一小段语音,这使得该网络能够大规模应用于实际环境,也使得语音造假的成本大大降低,类似于之前的deepfake网络。

GitHub链接:

https://github.com/CorentinJ/Real-Time-Voice-Cloning?utm_source=mybridge&utm_medium=blog&utm_campaign=read_more


标签: TTS语音合成

相关文章

语音合成标记语言SSML

1 简介SSML(Speech Synthesis Markup Language)是一种基于XML的标记语言。 与纯文本的合成相比,使用SSML可以充实合成的内容,为最终合成效果带来更多变化。SSM...

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。