语音合成方法、装置和电子设备制造方法及图纸

技术编号:29875744 阅读:19 留言:0更新日期:2021-08-31 23:51
本公开提供了一种语音合成方法、装置和电子设备,涉及语音、人工智能技术领域,尤其涉及语音合成、自然语言处理、深度学习技术领域。具体实现方案为:获取目标用户的模型参数;将第一目标语音合成模型的待更新模型参数更新为目标用户的模型参数,生成第二目标语音合成模型;将待合成文本输入至第二目标语音合成模型,其中,第二目标语音合成模型用于合成目标语音,目标语音具有所述目标用户的语音特征。由此,只需利用目标用户的模型参数对模型进行更新,大大减少了模型训练次数和语音合成的运算量,节省语音合成的成本。

【技术实现步骤摘要】
语音合成方法、装置和电子设备
本公开涉及计算机
,尤其涉及一种语音合成方法、语音合成模型的训练方法、装置、电子设备、存储介质和计算机程序产品。
技术介绍
目前,语音合成方法可将文本转换为具有目标用户语音特征的音频,在语音聊天、智能家居等领域得到了广泛应用。然而相关技术中的语音合成方法需要根据目标用户的语音片段进行模型的训练和更新,之后根据更新后的模型进行语音合成,模型训练次数较多,且模型训练所需的运算量较大,语音合成的成本也较大。
技术实现思路
本公开提供了一种语音合成方法、语音合成模型的训练方法、装置、电子设备、存储介质和计算机程序产品。根据第一方面,提供了一种语音合成方法,包括:获取目标用户的模型参数;将第一目标语音合成模型的待更新模型参数更新为所述目标用户的模型参数,生成第二目标语音合成模型;获取待合成文本,并将所述待合成文本输入至所述第二目标语音合成模型,其中,所述第二目标语音合成模型用于合成目标语音,所述目标语音具有所述目标用户的语音特征。根据第二方面,提供了一种语音合成模型的训练方法,包括:获取样本用户的样本语音和所述样本语音对应的标注文本;根据所述样本语音和所述标注文本对初始语音合成模型进行训练,生成候选语音合成模型;为所述候选语音合成模型配置待更新的模型参数;根据所述样本语音和所述标注文本对配置有所述待更新的模型参数的所述候选语音合成模型进行训练,生成第一目标语音合成模型。根据第三方面,提供了一种语音合成装置,包括:第一获取模块,用于获取目标用户的模型参数;更新模块,用于将第一目标语音合成模型的待更新模型参数更新为所述目标用户的模型参数,生成第二目标语音合成模型;合成模块,用于获取待合成文本,并将所述待合成文本输入至所述第二目标语音合成模型,其中,所述第二目标语音合成模型用于合成目标语音,所述目标语音具有所述目标用户的语音特征。根据第四方面,提供了一种语音合成模型的训练装置,包括:第二获取模块,用于获取样本用户的样本语音和所述样本语音对应的标注文本;第一训练模块,用于根据所述样本语音和所述标注文本对初始语音合成模型进行训练,生成候选语音合成模型;配置模块,用于为所述候选语音合成模型配置待更新的模型参数;第二训练模块,用于根据所述样本语音和所述标注文本对配置有所述待更新的模型参数的所述候选语音合成模型进行训练,生成第一目标语音合成模型。根据第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开第一方面所述的语音合成方法,或者执行本公开第二方面所述的语音合成模型的训练方法。根据第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开第一方面所述的语音合成方法,或者执行本公开第二方面所述的语音合成模型的训练方法。根据第七方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序被处理器执行时实现本公开第一方面所述的语音合成方法,或者执行本公开第二方面所述的语音合成模型的训练方法。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本公开的限定。其中:图1是根据本公开第一实施例的语音合成方法的流程示意图;图2根据本公开第二实施例的语音合成方法中获取目标用户的模型参数之前的流程示意图;图3根据本公开第三实施例的语音合成方法中获取待合成文本的目标声学特征的流程示意图;图4根据本公开第四实施例的语音合成方法中第二目标语音合成模型的示意图;图5是根据本公开第一实施例的语音合成模型的训练方法的流程示意图;图6是根据本公开第一实施例的语音合成装置的框图;图7是根据本公开第一实施例的语音合成模型的训练装置的框图;图8是用来实现本公开实施例的语音合成方法的电子设备的框图。具体实施方式以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。语音可包括语音识别、语音分离、语音交互、语音合成等
,是人工智能领域中的一个重要方向。语音合成(VoiceSynthesis)是一种让机器将文字信息转化为可输出的语音的技术,涉及声学、语言学、数字信号处理、计算机科学等领域。AI(ArtificialIntelligence,人工智能)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。目前,AI技术具有自动化程度高、精确度高、成本低的优点,得到了广泛的应用。NLU(NaturalLanguageProcessing,自然语言处理)是研究能有效地实现自然语言通信的计算机系统,特别是其中的软件系统的一门科学,是计算机科学领域与人工智能领域中的一个重要方向。深度学习(DeepLearning)是机器学习(MachineLearning)领域中一个新的研究方向,是学习样本数据的内在规律和表示层次,使得机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据的一门科学,广泛应用于语音和图像识别。图1是根据本公开第一实施例的语音合成方法的流程示意图。如图1所示,本公开第一实施例的语音合成方法,包括:S101,获取目标用户的模型参数。需要说明的是,本公开实施例的语音合成方法的执行主体可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选地,执行主体可包括工作站、服务器,计算机、用户终端及其他智能设备。其中,用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。本公开的实施例中,目标用户的模型参数可表征目标用户的语音特征,不同的目标用户可对应不同的模型参数。需要说明的是,本公开的实施例中,对用户的模型参数的类型、数量等均不做限定,比如,用户的模型参数可包括缩放参数scale和偏差参数bias,此时用户的模型参数的数量为2个。在一种实施方式中,目标用户的模型参数可预先存储在本地,从而语音合成时可从本地的存储空间中获取目标用户的模型参数,即可离线获取目标用户的模型参数,有效减少了语音合成的运算量。在一种实施方式中,可预先建立目标用户的用户标识和目标用户的模型参数之间的映射关系或者映射表,则可获取目标用户的用户标识,基于用户标识在上述映射关系或者映射表中查询该用户标识映射的模型参数,作为目标用户的模型参数。S102,本文档来自技高网
...

【技术保护点】
1.一种语音合成方法,包括:/n获取目标用户的模型参数;/n将第一目标语音合成模型的待更新模型参数更新为所述目标用户的模型参数,生成第二目标语音合成模型;/n获取待合成文本,并将所述待合成文本输入至所述第二目标语音合成模型,/n其中,所述第二目标语音合成模型用于合成目标语音,所述目标语音具有所述目标用户的语音特征。/n

【技术特征摘要】
1.一种语音合成方法,包括:
获取目标用户的模型参数;
将第一目标语音合成模型的待更新模型参数更新为所述目标用户的模型参数,生成第二目标语音合成模型;
获取待合成文本,并将所述待合成文本输入至所述第二目标语音合成模型,
其中,所述第二目标语音合成模型用于合成目标语音,所述目标语音具有所述目标用户的语音特征。


2.根据权利要求1所述的方法,其中,所述第二目标语音合成模型用于获取所述待合成文本的目标声学特征,并根据所述目标用户的模型参数对所述目标声学特征进行归一化处理,根据归一化处理后的所述目标声学特征合成所述目标语音。


3.根据权利要求1所述的方法,其中,所述方法还包括:
获取所述目标用户的样本语音和所述样本语音对应的标注文本;
根据所述样本语音和所述标注文本对所述第一目标语音合成模型中的所述待更新模型参数进行调整,直至达到调整结束条件,将最后一次调整后的所述待更新模型参数作为所述目标用户的模型参数。


4.根据权利要求1所述的方法,其中,所述方法还包括:
获取所述目标用户的用户标识;
将所述目标用户的模型参数存储至目标存储空间,并建立所述目标存储空间的目标空间标识与所述用户标识之间的关联关系。


5.根据权利要求4所述的方法,其中,所述获取目标用户的模型参数,包括:
获取所述目标用户的用户标识;
以所述目标用户的用户标识作为查询键值,获取所述目标空间标识;
根据所述目标空间标识,在所述目标存储空间中获取所述目标用户的模型参数。


6.根据权利要求2所述的方法,其中,所述获取所述待合成文本的目标声学特征,包括:
获取所述待合成文本的音素特征;
获取所述目标用户的样本语音的第一声学特征;
根据所述音素特征和所述第一声学特征,得到所述目标声学特征。


7.根据权利要求6所述的方法,其中,所述根据所述音素特征和所述第一声学特征,得到所述目标声学特征,包括:
根据所述音素特征和所述第一声学特征,得到第二声学特征;
对所述第二声学特征进行至少一个特征维度的调整,得到所述目标声学特征。


8.根据权利要求7所述的方法,其中,所述获取所述待合成文本的目标声学特征,包括:
将所述待合成文本输入至所述第二目标语音合成模型中的音素特征提取层,基于所述音素特征提取层对所述待合成文本进行音素特征提取,得到所述待合成文本的音素特征;
将所述音素特征、所述目标用户的样本语音输入至所述第二目标语音合成模型中的声学特征提取层,基于所述声学特征提取层对所述目标用户的样本语音进行特征提取,得到第一声学特征,将所述音素特征和所述第一声学特征的和值作为第二声学特征;
将所述第二声学特征输入至所述第二目标语音合成模型中的特征调整层,基于所述特征调整层对所述第二声学特征进行至少一个特征维度的调整,得到所述目标声学特征。


9.根据权利要求6所述的方法,其中,所述第一声学特征包括用户粒度的声学特征、句子粒度的声学特征和音素粒度的声学特征中的至少一种。


10.根据权利要求7或8所述的方法,其中,所述特征维度包括时长、基音频率、能量中的至少一种。


11.一种语音合成模型的训练方法,包括:
获取样本用户的样本语音和所述样本语音对应的标注文本;
根据所述样本语音和所述标注文本对初始语音合成模型进行训练,生成候选语音合成模型;
为所述候选语音合成模型配置待更新的模型参数;
根据所述样本语音和所述标注文本对配置有所述待更新的模型参数的所述候选语音合成模型进行训练,生成第一目标语音合成模型。


12.根据权利要求11所述的方法,其中,所述为所述候选语音合成模型配置待更新的模型参数,包括:
为所述候选语音合成模型的归一化层配置所述待更新的模型参数;
所述根据所述样本语音和所述标注文本对配置有所述待更新的模型参数的所述候选语音合成模型进行训练,生成第一目标语音合成模型,包括:
根据所述样本语音和所述标注文本对配置有所述待更新的模型参数的所述归一化层进行训练,生成第一目标语音合成模型。


13.一种语音合成装置,包括:
第一获取模块,用于获取目标用户的模型参数;
更新模块,用于将第一目标语音合成模型的待更新模型参数更新为所述目标用户的模型参数,生成第二目标语音合成模型;
合成模块,用于获取待合成文本,并将所述待合成文本输入至所述第二目标语音合成模型,其中,所述第二目标语音合成模型用于合成目标语音,所述目标语音具有所述目标用户的语音特征。<...

【专利技术属性】
技术研发人员:赵情恩
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1