一种语音克隆方法及装置制造方法及图纸

技术编号:35192179 阅读:32 留言:0更新日期:2022-10-12 18:13
本发明专利技术涉及一种语音克隆方法,包括:获取每个发音人的不超过预设阈值的发音数据;每个发音数据包括发音人ID;提取每个发音数据的向量特征;对每个发音人对应的全部的向量特征进行计算,得到发音人的发音人音色特征;将每个发音人的发音人音色特征输入预设的网络中的固定部分,网络的其余部分通过将预设的基准模型进行初始化,进行基准模型的参数更新,直至得到目标基准模型;获取当前每个发音人的发音人音色特征;将当前发音人的发音人音色特征输入网络,合成得到具有当前发音人的音色的语音。音。音。

【技术实现步骤摘要】
一种语音克隆方法及装置


[0001]本专利技术涉及数据处理
,尤其涉及一种语音克隆方法及装置。

技术介绍

[0002]现有技术中,为了在低资源下,实现多人语音音色克隆,主要包括以下几种方法:
[0003]第一种、在大规模数据量训练的基准模型基础上,针对单人的语音数据进行模型训练,每个发音人独享一套模型和全量参数;
[0004]第二种、在大规模数据量训练的基准模型基础上,冻结住网络模型部分参数,每个发音人独享模型中部分参数,冻结参数共享;
[0005]上述两种方法分别存在如下问题:
[0006]第一种方法中,对于每个发音人独享一套模型和参数的情形,虽然克隆语音的相似度与自然度较好,但随着人数上升,部署阶段成本急剧增高;第二种方法中,对于冻结参数训练的情形,虽然一定程度上降低了部署成本,但低资源下,克隆语音的相似度与自然度均大大下降,音色克隆失败。
[0007]现有的模型在低资源和模型参数量受限的情况下,很难提取到发音人的音色特征,造成克隆出的语音相似度低;随着发音人数的增长,部署阶段所需的存储和计算资源也急剧增长。

技术实现思路

[0008]本专利技术的目的是提供一种语音克隆方法及装置,以解决现有技术中的问题。
[0009]第一方面,本专利技术提供了一种语音克隆方法,所述方法包括:
[0010]获取每个发音人的不超过预设阈值的发音数据;每个发音数据包括发音人ID;
[0011]提取每个发音数据的向量特征;
[0012]对每个发音人对应的全部的向量特征进行计算,得到所述发音人的发音人音色特征;
[0013]将每个发音人的发音人音色特征输入预设的网络中的固定部分,所述网络的其余部分通过将预设的基准模型进行初始化,进行所述基准模型的参数更新,直至得到目标基准模型;
[0014]获取当前发音人的发音人音色特征;
[0015]将当前发音人的发音人音色特征输入网络,合成得到具有所述当前发音人的音色的语音。
[0016]在一种可能的实现方式中,所述方法之前还包括:
[0017]根据大数据量音频库,训练得到基准模型;所述大数据量音频库包括大量发音人的发音数据。
[0018]在一种可能的实现方式中,所述预设阈值为20。
[0019]在一种可能的实现方式中,所述对每个发音人对应的全部的向量特征进行计算,
得到所述发音人的发音人音色特征具体包括:
[0020]对每个发音人的全部向量特征进行求均值,得到每个发音人对应的发音人音色特征。
[0021]在一种可能的实现方式中,所述进行所述基准模型的参数更新,直至得到目标基准模型具体包括:
[0022]当所述参数输入所述基准模型中进行训练时,直至所述基准模型收敛,得到目标基准模型。
[0023]在一种可能的实现方式中,
[0024]所述将当前发音人的发音人音色特征输入网络,合成得到具有所述当前发音人的音色的语音具体包括:
[0025]根据所述当前发音人ID,确定所述当前发音人的发音人音色特征;
[0026]根据当前发音人的音色特征,合成得到具有当前发音人的音色的语音。
[0027]第二方面,本专利技术提供了一种语音克隆装置,所述装置包括:
[0028]获取模块,所述获取模块用于获取每个发音人的不超过预设阈值的发音数据;每个发音数据包括发音人ID;
[0029]提取模块,所述提取模块用于提取每个发音数据的向量特征;
[0030]计算模块,所述计算模块用于对每个发音人对应的全部的向量特征进行计算,得到所述发音人的发音人音色特征;
[0031]模型训练模块,所述模型训练模块用于将每个发音人的发音人音色特征输入预设的网络中的固定部分,所述网络的其余部分通过将预设的基准模型进行初始化,进行所述基准模型的参数更新,直至得到目标基准模型;
[0032]所述获取模块还用于获取当前发音人的发音人音色特征;
[0033]克隆模块,所述克隆模块用于克隆模块,所述克隆模块用于将当前发音人的发音人音色特征输入网络,合成得到具有所述当前发音人的音色的语音。
[0034]第三方面,本专利技术提供了一种芯片系统,包括处理器,所述处理器与存储器的耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被所述处理器执行时实现第一方面任一项所述的语音克隆方法。
[0035]第四方面,本专利技术提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行第一方面任一项所述的语音克隆方法。
[0036]第五方面,本专利技术提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如第一方面任一项所述的语音克隆方法。
[0037]本申请通过引入发音人音色特征,对多发音人进行混合训练,多发音人的发音人音色特征输入进基准模型后,得到包括多个发音人的目标基准模型,后续即可根据当前发音人的发音人音色特征和该目标基准模型来克隆当前发音人的语音。从而大大降低计算和存储资源,节约成本
附图说明
[0038]图1为本专利技术实施例一提供的语音克隆方法流程示意图之一;
[0039]图2为本专利技术实施例一提供的语音克隆方法流程示意图之二;
[0040]图3为本专利技术实施例二提供的语音克隆装置结构示意图;
[0041]图4为本专利技术实施例三提供的芯片系统结构示意图;
[0042]图5为本专利技术实施例四提供的计算机可读存储介质示意图;
[0043]图6为本专利技术实施例五提供的计算机程序产品示意图。
具体实施方式
[0044]下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
[0045]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0046]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包括。例如包括了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0047]实施例一
[0048]图1为本专利技术实施例一提供的语音克隆方法流程示意图之一,该方法应用在低资源下多发音人循环训练的场景中。如图1所示,该方法包括以下步骤:
[0049]步骤110,获取每个发音人的不超过预设阈值的发音数据;每个发音数据包括发音人ID;
[0050]具体的,获取的每个发音人的发音数据不大于20,然后用用speaker_id进行区分不同发音人。比如,发音人个数为8,每个发音人的发音数据为20,则得到的发音数据总数为8*20本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音克隆方法,其特征在于,所述方法包括:获取每个发音人的不超过预设阈值的发音数据;每个发音数据包括发音人ID;提取每个发音数据的向量特征;对每个发音人对应的全部的向量特征进行计算,得到所述发音人的发音人音色特征;将每个发音人的发音人音色特征输入预设的网络中的固定部分,所述网络的其余部分通过将预设的基准模型进行初始化,进行所述基准模型的参数更新,直至得到目标基准模型;获取当前发音人的发音人音色特征;将当前发音人的发音人音色特征输入网络,合成得到具有所述当前发音人的音色的语音。2.根据权利要求1所述的方法,其特征在于,所述方法之前还包括:根据大数据量音频库,训练得到基准模型;所述大数据量音频库包括大量发音人的发音数据。3.根据权利要求2所述的方法,其特征在于,所述预设阈值为20。4.根据权利要求1所述的方法,其特征在于,所述对每个发音人对应的全部的向量特征进行计算,得到所述发音人的发音人音色特征具体包括:对每个发音人的全部向量特征进行求均值,得到每个发音人对应的发音人音色特征。5.根据权利要求1所述的方法,其特征在于,所述进行所述基准模型的参数更新,直至得到目标基准模型具体包括:当所述参数输入所述基准模型中进行训练时,直至所述基准模型收敛,得到目标基准模型。6.根据权利要求1所述的方法,其特征在于,所述将当前发音人的发音人音色特征输入网络,合成得到具有所述当前发音人的音色的语音具体包括:根据所述当前发音人ID,确定所述当前发音人的发音人音色特征;根据...

【专利技术属性】
技术研发人员:姚昆孙见青梁家恩
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1