一种语音克隆方法及装置制造方法及图纸

技术编号：35192179 阅读：32 留言：0更新日期：2022-10-12 18:13

本发明专利技术涉及一种语音克隆方法，包括：获取每个发音人的不超过预设阈值的发音数据；每个发音数据包括发音人ID；提取每个发音数据的向量特征；对每个发音人对应的全部的向量特征进行计算，得到发音人的发音人音色特征；将每个发音人的发音人音色特征输入预设的网络中的固定部分，网络的其余部分通过将预设的基准模型进行初始化，进行基准模型的参数更新，直至得到目标基准模型；获取当前每个发音人的发音人音色特征；将当前发音人的发音人音色特征输入网络，合成得到具有当前发音人的音色的语音。音。音。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音克隆方法及装置

[0001]本专利技术涉及数据处理
，尤其涉及一种语音克隆方法及装置。

技术介绍

[0002]现有技术中，为了在低资源下，实现多人语音音色克隆，主要包括以下几种方法：
[0003]第一种、在大规模数据量训练的基准模型基础上，针对单人的语音数据进行模型训练，每个发音人独享一套模型和全量参数；
[0004]第二种、在大规模数据量训练的基准模型基础上，冻结住网络模型部分参数，每个发音人独享模型中部分参数，冻结参数共享；
[0005]上述两种方法分别存在如下问题：
[0006]第一种方法中，对于每个发音人独享一套模型和参数的情形，虽然克隆语音的相似度与自然度较好，但随着人数上升，部署阶段成本急剧增高；第二种方法中，对于冻结参数训练的情形，虽然一定程度上降低了部署成本，但低资源下，克隆语音的相似度与自然度均大大下降，音色克隆失败。
[0007]现有的模型在低资源和模型参数量受限的情况下，很难提取到发音人的音色特征，造成克隆出的语音相似度低；随着发音人数的增长，部署阶段所需的存储和计算资源也急剧增长。

技术实现思路

[0008]本专利技术的目的是提供一种语音克隆方法及装置，以解决现有技术中的问题。
[0009]第一方面，本专利技术提供了一种语音克隆方法，所述方法包括：
[0010]获取每个发音人的不超过预设阈值的发音数据；每个发音数据包括发音人ID；
[0011]提取每个发音数据的向量特征；
[0012]对每个发...

【技术保护点】

【技术特征摘要】
1.一种语音克隆方法，其特征在于，所述方法包括：获取每个发音人的不超过预设阈值的发音数据；每个发音数据包括发音人ID；提取每个发音数据的向量特征；对每个发音人对应的全部的向量特征进行计算，得到所述发音人的发音人音色特征；将每个发音人的发音人音色特征输入预设的网络中的固定部分，所述网络的其余部分通过将预设的基准模型进行初始化，进行所述基准模型的参数更新，直至得到目标基准模型；获取当前发音人的发音人音色特征；将当前发音人的发音人音色特征输入网络，合成得到具有所述当前发音人的音色的语音。2.根据权利要求1所述的方法，其特征在于，所述方法之前还包括：根据大数据量音频库，训练得到基准模型；所述大数据量音频库包括大量发音人的发音数据。3.根据权利要求2所述的方法，其特征在于，所述预设阈值为20。4.根据权利要求1所述的方法，其特征在于，所述对每个发音人对应的全部的向量特征进行计算，得到所述发音人的发音人音色特征具体包括：对每个发音人的全部向量特征进行求均值，得到每个发音人对应的发音人音色特征。5.根据权利要求1所述的方法，其特征在于，所述进行所述基准模型的参数更新，直至得到目标基准模型具体包括：当所述参数输入所述基准模型中进行训练时，直至所述基准模型收敛，得到目标基准模型。6.根据权利要求1所述的方法，其特征在于，所述将当前发音人的发音人音色特征输入网络，合成得到具有所述当前发音人的音色的语音具体包括：根据所述当前发音人ID，确定所述当前发音人的发音人音色特征；根据...

【专利技术属性】
技术研发人员：姚昆，孙见青，梁家恩，
申请(专利权)人：云知声智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人