当前位置:首页 > 技术研究 > 正文内容

只需5秒音源,这个网络就能实时“克隆”你的声音

陈雄1年前技术研究6233

传统的自然语音合成系统在训练时需要大量的高质量样本,通常对每个说话者,都需要成百上千分钟的训练数据,这使得模型通常不具有普适性,不能大规模应用到复杂环境(有许多不同的说话者)。而这些网络都是将语音建模和语音合成两个过程混合在一起。本文工作首先将这两个过程分开,通过第一个语音特征编码网络(encoder)建模说话者的语音特征,接着通过第二个高质量的TTS网络完成特征到语音的转换。

两个网络可以分别在不同的数据集上训练,因此对训练数据的需求量大大降低。对于特征编码网络,其关键在于声纹信息的建模,即判断两段语音为同一人所说,因此可以从语音识别(speaker verification)任务进行迁移学习,并且该网络可以在带有噪声和混响的多目标数据集上训练。

为了保证网络对未知(训练集中没有的)说话者仍然具有声音特征提取能力,编码网络在18K说话者的数据集上训练,而语音合成网络只需要在1.2K说话者的数据集上训练。

网络结构

RhidydB6Zjs4WI.jpg

GitHub标星近10万:只需5秒音源,这个网络就能实时“克隆”你的声音

语音相似度

为了验证合成语音与原始说话者语音是否相似,对每个说话者的每段语音,都随机选择另一段语音作为真值,然后评估他们的相似度:

GitHub标星近10万:只需5秒音源,这个网络就能实时“克隆”你的声音

总结

本文提出的语音合成网络,能对训练不可见的说话者进行声音合成,并且仅仅依赖于说话者的一小段语音,这使得该网络能够大规模应用于实际环境,也使得语音造假的成本大大降低,类似于之前的deepfake网络。

GitHub链接:

https://github.com/CorentinJ/Real-Time-Voice-Cloning?utm_source=mybridge&utm_medium=blog&utm_campaign=read_more


标签: TTS语音合成

相关文章

Linux上安装openacs

Linux上安装openacs

 Openacs的安装分为四大步:1.安装jdk2.安装jboss3.安装mysql4.部署openacs JDK简介Java DevelopmentKit(JDK)是由Sun公司...

pjsip回铃音问题

 1、早期媒体无论是在PSTN还是在VoIP网络中,一个呼叫的最终目的让两个用户进行交谈(conversation)。这里我们将由用户之间的交谈所产生的媒体称为常规媒体(“regular m...

ASR语音智能车牌识别解决方案源代码

方案介绍背景介绍随着智能客服类产品的与日俱增,行业角逐也越发激烈,客户的要求也越来越高,对产品的专业度有了更高的要求,本次项目也是由某汽车领域的客户提出了需要对车牌号进行准确识别的要求,不仅限于基础的...

开源sip server & sip client 和开发库 一览

不多说了,做SIP 客户端和 SIP开发的收藏此页!Open source means all source code is available!! Do not post any &quo...

v​xWorks

vxWorks操作系统是美国WindRiver公司于1983年设计开发的一种嵌入式实时操作系统(RTOS),被应用于各种嵌入式领域。包括过程控制(化工、食品加工),机器人(制造、自动操作控制),航空电...

WIFI探针

 探针的原理是利用智能设备商WIFI模块所发出的无线广播信号进行设备的感知,就像是网站上的Cookie,他会记录你的访问行为和轨迹。不同的是,通过手机MAC地址所采集的是你的线下行为轨迹,比...

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。