语音合成模型训练和语音合成方法、装置、设备及介质制造方法及图纸

技术编号：28041859 阅读：29 留言：0更新日期：2021-04-09 23:25

本发明专利技术公开了一种语音合成模型训练和语音合成方法、装置、设备及介质。由于样本集中的任一第一语音样本对应的文本特征，均是根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系确定的，从而实现了将第一语音样本转换为第二语言的语音样本，增加了第二语言的语音样本的数量，后续基于样本集中的第一语音样本对应的文本特征样本和第一语音样本的第一声学特征，即可对原始语音合成模型进行训练，从而获取到第二语言对应的目标语音合成模型，从而实现无需大量的采集第二语言的语音样本，即可获取到第二语言的目标语音合成模型。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成模型训练和语音合成方法、装置、设备及介质
本专利技术涉及语音处理
，尤其涉及一种语音合成模型训练和语音合成方法、装置、设备及介质。
技术介绍
随着文本转语音(TexttoSpeech，TTS)技术的发展，越来越多的领域采用该种技术，以提高用户的体验。比如，通过预先设置智能设备上语音助手对某一问题的回答内容，以使后续用户在请求语音助手回答该问题时，即可输出语音形式的回答内容。现有技术中，可以通过预先训练完成的语音合成模型，生成文本信息对应的声学特征。后续基于该声学特征，进行相应的处理，从而得到文本信息对应的语音信息。如果希望可以将任一文本信息转化成自然、准确的语音信息，则需要基于大量的预先标记好的语音样本，对该语音合成模型进行训练，以提高该语音合成模型输出文本信息对应的声学特征的准确度。而近几年来，为了进一步提高用户的体验，并可以为用户提供个性化的服务，如何将文本信息转化成语音为方言的语音信息成为人们日益关注的问题。为了可以将任一文本信息转化成自然、准确的语音为方言的语音信息，基于现有技术中的方法，需要预...

【技术保护点】
1.一种语音合成模型训练方法，其特征在于，所述方法包括：/n获取包含至少一个第一语音样本的样本集，所述第一语音样本为采用第一语言的语音样本，所述第一语音样本对应的文本特征样本是根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系确定的；/n基于所述样本集中的第一语音样本对应的文本特征样本和所述第一语音样本的第一声学特征，对原始语音合成模型进行训练，以获取所述第二语言对应的目标语音合成模型。/n

【技术特征摘要】
1.一种语音合成模型训练方法，其特征在于，所述方法包括：
获取包含至少一个第一语音样本的样本集，所述第一语音样本为采用第一语言的语音样本，所述第一语音样本对应的文本特征样本是根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系确定的；
基于所述样本集中的第一语音样本对应的文本特征样本和所述第一语音样本的第一声学特征，对原始语音合成模型进行训练，以获取所述第二语言对应的目标语音合成模型。

2.根据权利要求1所述的方法，其特征在于，所述基于所述样本集中的第一语音样本对应的文本特征样本和所述第一语音样本的第一声学特征，对原始语音合成模型进行训练，以获取所述第二语言对应的目标语音合成模型，包括：
获取所述样本集中任一第一语音样本对应的文本特征样本；基于所述第一语音样本对应的文本特征样本和所述第一语音样本的第一声学特征，对所述原始语音合成模型进行训练，得到基础语音合成模型；
获取至少一个第二语音样本，所述第二语音样本为采用所述第二语言的语音样本，且所述第二语音样本的数量远小于第一语音样本的数量；基于所述第二语音样本对应的第二文本特征和所述第二语音样本的第二声学特征，对所述基础语音合成模型进行训练，得到所述目标语音合成模型，所述第二文本特征是基于所述第二语言的语音单元集合确定的。

3.根据权利要求2所述的方法，其特征在于，所述得到基础语音合成模型之后，所述方法还包括：
将所述基础语音合成模型中的各第一类参数的参数值，分别确定为所述目标语音合成模型中的对应参数的参数值；
所述基于所述第二语音样本对应的第二文本特征和所述第二语音样本的第二声学特征，对所述基础语音合成模型进行训练，包括：
基于所述第二语音样本对应的第二文本特征和所述第二语音样本的第二声学特征，对所述基础语音合成模型中的第二类参数的参数值进行调整，以确定所述目标语音合成模型中的对应参数的参数值。

4.根据权利要求2所述的方法，其特征在于，所述样本集中还包括至少一个所述第二语音样本；基于所述第一语音样本对应的文本特征样本和所述第一语音样本的第一声学特征，对所述原始语音合成模型进行训练，得到基础语音合成模型，还包括：
基于所述第二语音样本对应的第二文本特征和所述第二语音样本的第二声学特征，对所述原始语音合成模型进行训练，得到所述基础语音合成模型。

5.一种语音合成模型训练方法，其特征在于，所述方法包括：
获取包含至少一个语音样本的样本集，所述语音样本包括采用第一语言的第一语音样本和采用第二语言的第二语言样本；
基于所述样本集中的第一语音样本对应的第一文本特征和所述第一语音样本的第一声学特征，以及所述样本集中的第二语音样本对应的第二文本特征和所述第二语音样本的第二声学特征，对所述原始语音合成模型进行训练，得到基础语音合...

【专利技术属性】
技术研发人员：张大成，刘欢，
申请(专利权)人：北京猎户星空科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人