语音合成方法、装置和电子设备制造方法及图纸

技术编号：29875744 阅读：19 留言：0更新日期：2021-08-31 23:51

本公开提供了一种语音合成方法、装置和电子设备，涉及语音、人工智能技术领域，尤其涉及语音合成、自然语言处理、深度学习技术领域。具体实现方案为：获取目标用户的模型参数；将第一目标语音合成模型的待更新模型参数更新为目标用户的模型参数，生成第二目标语音合成模型；将待合成文本输入至第二目标语音合成模型，其中，第二目标语音合成模型用于合成目标语音，目标语音具有所述目标用户的语音特征。由此，只需利用目标用户的模型参数对模型进行更新，大大减少了模型训练次数和语音合成的运算量，节省语音合成的成本。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置和电子设备
本公开涉及计算机
，尤其涉及一种语音合成方法、语音合成模型的训练方法、装置、电子设备、存储介质和计算机程序产品。
技术介绍
目前，语音合成方法可将文本转换为具有目标用户语音特征的音频，在语音聊天、智能家居等领域得到了广泛应用。然而相关技术中的语音合成方法需要根据目标用户的语音片段进行模型的训练和更新，之后根据更新后的模型进行语音合成，模型训练次数较多，且模型训练所需的运算量较大，语音合成的成本也较大。
技术实现思路
本公开提供了一种语音合成方法、语音合成模型的训练方法、装置、电子设备、存储介质和计算机程序产品。根据第一方面，提供了一种语音合成方法，包括：获取目标用户的模型参数；将第一目标语音合成模型的待更新模型参数更新为所述目标用户的模型参数，生成第二目标语音合成模型；获取待合成文本，并将所述待合成文本输入至所述第二目标语音合成模型，其中，所述第二目标语音合成模型用于合成目标语音，所述目标语音具有所述目标用户的语音特征。根据第二方面，提供了一种语音合成模型的训练方法，包括：获取样本用户的样本语音和所述样本语音对应的标注文本；根据所述样本语音和所述标注文本对初始语音合成模型进行训练，生成候选语音合成模型；为所述候选语音合成模型配置待更新的模型参数；根据所述样本语音和所述标注文本对配置有所述待更新的模型参数的所述候选语音合成模型进行训练，生成第一目标语音合成模型。根据第三方面，提供了一种语音合成装置，包括：第一获取模块，用于获取目标用户的模型...

【技术保护点】
1.一种语音合成方法，包括：/n获取目标用户的模型参数；/n将第一目标语音合成模型的待更新模型参数更新为所述目标用户的模型参数，生成第二目标语音合成模型；/n获取待合成文本，并将所述待合成文本输入至所述第二目标语音合成模型，/n其中，所述第二目标语音合成模型用于合成目标语音，所述目标语音具有所述目标用户的语音特征。/n

【技术特征摘要】
1.一种语音合成方法，包括：
获取目标用户的模型参数；
将第一目标语音合成模型的待更新模型参数更新为所述目标用户的模型参数，生成第二目标语音合成模型；
获取待合成文本，并将所述待合成文本输入至所述第二目标语音合成模型，
其中，所述第二目标语音合成模型用于合成目标语音，所述目标语音具有所述目标用户的语音特征。

2.根据权利要求1所述的方法，其中，所述第二目标语音合成模型用于获取所述待合成文本的目标声学特征，并根据所述目标用户的模型参数对所述目标声学特征进行归一化处理，根据归一化处理后的所述目标声学特征合成所述目标语音。

3.根据权利要求1所述的方法，其中，所述方法还包括：
获取所述目标用户的样本语音和所述样本语音对应的标注文本；
根据所述样本语音和所述标注文本对所述第一目标语音合成模型中的所述待更新模型参数进行调整，直至达到调整结束条件，将最后一次调整后的所述待更新模型参数作为所述目标用户的模型参数。

4.根据权利要求1所述的方法，其中，所述方法还包括：
获取所述目标用户的用户标识；
将所述目标用户的模型参数存储至目标存储空间，并建立所述目标存储空间的目标空间标识与所述用户标识之间的关联关系。

5.根据权利要求4所述的方法，其中，所述获取目标用户的模型参数，包括：
获取所述目标用户的用户标识；
以所述目标用户的用户标识作为查询键值，获取所述目标空间标识；
根据所述目标空间标识，在所述目标存储空间中获取所述目标用户的模型参数。

6.根据权利要求2所述的方法，其中，所述获取所述待合成文本的目标声学特征，包括：
获取所述待合成文本的音素特征；
获取所述目标用户的样本语音的第一声学特征；
根据所述音素特征和所述第一声学特征，得到所述目标声学特征。

7.根据权利要求6所述的方法，其中，所述根据所述音素特征和所述第一声学特征，得到所述目标声学特征，包括：
根据所述音素特征和所述第一声学特征，得到第二声学特征；
对所述第二声学特征进行至少一个特征维度的调整，得到所述目标声学特征。

8.根据权利要求7所述的方法，其中，所述获取所述待合成文本的目标声学特征，包括：
将所述待合成文本输入至所述第二目标语音合成模型中的音素特征提取层，基于所述音素特征提取层对所述待合成文本进行音素特征提取，得到所述待合成文本的音素特征；
将所述音素特征、所述目标用户的样本语音输入至所述第二目标语音合成模型中的声学特征提取层，基于所述声学特征提取层对所述目标用户的样本语音进行特征提取，得到第一声学特征，将所述音素特征和所述第一声学特征的和值作为第二声学特征；
将所述第二声学特征输入至所述第二目标语音合成模型中的特征调整层，基于所述特征调整层对所述第二声学特征进行至少一个特征维度的调整，得到所述目标声学特征。

9.根据权利要求6所述的方法，其中，所述第一声学特征包括用户粒度的声学特征、句子粒度的声学特征和音素粒度的声学特征中的至少一种。

10.根据权利要求7或8所述的方法，其中，所述特征维度包括时长、基音频率、能量中的至少一种。

11.一种语音合成模型的训练方法，包括：
获取样本用户的样本语音和所述样本语音对应的标注文本；
根据所述样本语音和所述标注文本对初始语音合成模型进行训练，生成候选语音合成模型；
为所述候选语音合成模型配置待更新的模型参数；
根据所述样本语音和所述标注文本对配置有所述待更新的模型参数的所述候选语音合成模型进行训练，生成第一目标语音合成模型。

12.根据权利要求11所述的方法，其中，所述为所述候选语音合成模型配置待更新的模型参数，包括：
为所述候选语音合成模型的归一化层配置所述待更新的模型参数；
所述根据所述样本语音和所述标注文本对配置有所述待更新的模型参数的所述候选语音合成模型进行训练，生成第一目标语音合成模型，包括：
根据所述样本语音和所述标注文本对配置有所述待更新的模型参数的所述归一化层进行训练，生成第一目标语音合成模型。

13.一种语音合成装置，包括：
第一获取模块，用于获取目标用户的模型参数；
更新模块，用于将第一目标语音合成模型的待更新模型参数更新为所述目标用户的模型参数，生成第二目标语音合成模型；
合成模块，用于获取待合成文本，并将所述待合成文本输入至所述第二目标语音合成模型，其中，所述第二目标语音合成模型用于合成目标语音，所述目标语音具有所述目标用户的语音特征。<...

【专利技术属性】
技术研发人员：赵情恩，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人