语音转换及相应的模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:27617568 阅读:25 留言:0更新日期:2021-03-10 10:51
本申请公开了一种语音转换及相应的模型训练方法、装置、设备及存储介质,涉及机器学习与智能语音等人工智能技术领域。具体实现方案为:基于源语音的音频,提取源语音的特征信息;基于所述源语音的特征信息和要转换的目标音色信息,采用预先训练的语音转换模型,生成目标语音的声学特征信息;基于所述目标语音的声学特征信息,采用预先训练的声码器,合成目标语音的音频。本申请能够避免语音转换中信息的损失,有效地提高合成的目标语音的音频的准确性。性。性。

【技术实现步骤摘要】
语音转换及相应的模型训练方法、装置、设备及存储介质


[0001]本申请涉及计算机
,具体涉及机器学习与智能语音等人工智能
,尤其涉及一种语音转换及相应的模型训练方法、装置、设备及存储介质。

技术介绍

[0002]语音转换在市场上变得越来越受关注。语音转换的目的是将源说话人的语音转为目标说话人的音色,并保持语音的表达内容不变。
[0003]现有技术中主要采用平行语料的语音转换。在录制所需的语料时,需要源说话人和目标说话人录制相同文本的音频。在模型训练时,由于每个人在读同一句话时,录得语音的时长肯定会有一些差异,因此从文本内容相同的音频中提取出的源说话人和目标说话人的特征序列长度也不同。因此需要通过一些对齐方法将源说话人和目标说话人的音频特征序列长度进行对齐,这样就可以构造一个模型,输入源说话人的特征序列去预测目标说话人的特征序列。在测试阶段,将源说话人语音提取特征输入模型,就可以预测得到目标说话人的特征序列,再通过声码器就可以将预测的特征序列转为语音了。

技术实现思路

[0004]本申请提供了一种语音转换及相应的模型训练方法、装置、设备及存储介质。
[0005]根据本申请的一方面,提供了一种语音转换方法,其中所述方法,包括:
[0006]基于源语音的音频,提取源语音的特征信息;
[0007]基于所述源语音的特征信息和要转换的目标音色信息,采用预先训练的语音转换模型,生成目标语音的声学特征信息;
[0008]基于所述目标语音的声学特征信息,采用预先训练的声码器,合成目标语音的音频。
[0009]根据本申请的另一方面,提供了一种语音转换模型的训练方法,其中,所述方法包括:
[0010]采集数条训练语音的音频;
[0011]基于各所述训练语音的音频,提取所述训练语音的训练特征信息和训练音色信息;
[0012]基于各所述训练语音对应的所述训练特征信息和所述训练音色信息,训练语音转换模型。
[0013]根据本申请的再一方面,提供了一种语音转换模型的训练装置,其中,所述装置包括:
[0014]采集模块,用于采集数条训练语音的音频;
[0015]提取模块,用于基于各所述训练语音的音频,提取所述训练语音的训练特征信息和训练音色信息;
[0016]训练模块,用于基于各所述训练语音对应的所述训练特征信息和所述训练音色信
息,训练语音转换模型。
[0017]根据本申请的又一方面,提供了一种语音转换模型的训练装置,其中,所述装置包括:
[0018]采集模块,用于采集数条训练语音的音频;
[0019]提取模块,用于基于各所述训练语音的音频,提取所述训练语音的训练特征信息和训练音色信息;
[0020]训练模块,用于基于各所述训练语音对应的所述训练特征信息和所述训练音色信息,训练语音转换模型。
[0021]根据本申请的再另一方面,提供了一种电子设备,包括:
[0022]至少一个处理器;以及
[0023]与所述至少一个处理器通信连接的存储器;其中,
[0024]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
[0025]根据本申请的再又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方法。
[0026]根据本申请的又另一方面,提供了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行如上所述的方法。
[0027]根据本申请的技术,在合成目标语音的音频时,不仅需要源语音的特征信息,还需要基于要转换的目标音色信息,才可以实现目标语音的音频的合成。也就是说,与现有的平行语料的语音转换相比,本申请所采用的语音转换模型,不需要基于对齐方法,仅基于源语音的信息,便可以预测目标语音的信息,能够避免语音转换中信息的损失,有效地提高合成的目标语音的音频的准确性。
[0028]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0029]附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0030]图1是根据本申请第一实施例的示意图;
[0031]图2是根据本申请第二实施例的示意图;
[0032]图3是本实施例的语音转换模型的架构图;
[0033]图4是本申请提供的一组采样块的工作原理图;
[0034]图5是根据本申请第三实施例的示意图;
[0035]图6是根据本申请第四实施例的示意图;
[0036]图7是根据本申请第五实施例的示意图;
[0037]图8是根据本申请第六实施例的示意图;
[0038]图9是根据本申请第七实施例的示意图;
[0039]图10是根据本申请第八实施例的示意图;
[0040]图11是用来实现本申请实施例的上述方法的电子设备的框图。
具体实施方式
[0041]以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0042]图1是根据本申请第一实施例的示意图;如图1所示,本实施例提供一种语音转换方法,具体可以包括如下步骤:
[0043]S101、基于源语音的音频,提取源语音的特征信息;
[0044]本实施例的源语音的特征信息为从源语音的音频中提取的,能够表征源语音的信息。例如可以为源语音的声学特征信息,即源语音的梅尔(mel)频谱序列。
[0045]S102、基于源语音的特征信息和要转换的目标音色信息,采用预先训练的语音转换模型,生成目标语音的声学特征信息;
[0046]S103、基于目标语音的声学特征信息,采用预先训练的声码器,合成目标语音的音频。
[0047]本实施例的语音转换方法的执行主体为语音转换装置,该语音转换装置可以为电子实体,或者也可以为采用软件集成的应用。该语音装换装置中采用预先训练的语音转换模型和声码器模型来实现,使用时,仅需获取源语音的特征信息和要转换的目标音色信息便可以合成目标语音的音频。
[0048]本实施例的源语音的音频和目标语音的音频具体可以为不同发音人的音频,即携带不同的发音人的音色信息。
[0049]本实施例的语音转换装置中采用的语音转换模型,用于实现在源语音的特征信息中,去除源音色信息,并添加目标音色信息,进而生成目标语音的声学特征信息。本实施例的目标语音的声学特征信息可以采用梅尔(mel)频谱序列的形式。最后由声码器基于该目标语音的声本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音转换方法,其中所述方法,包括:基于源语音的音频,提取源语音的特征信息;基于所述源语音的特征信息和要转换的目标音色信息,采用预先训练的语音转换模型,生成目标语音的声学特征信息;基于所述目标语音的声学特征信息,采用预先训练的声码器,合成目标语音的音频。2.根据权利要求1所述的方法,其中,基于所述源语音的特征信息和要转换的目标音色信息,采用预先训练的语音转换模型,生成目标语音的声学特征信息,包括:基于所述源语音的特征信息,采用预先训练的所述语音转换模型中的编码器进行编码处理,以去除所述源语音的源音色信息,获取到所述源语音的深度内容信息;基于要转换的所述目标音色信息和所述源语音的深度内容信息,采用预先训练的所述语音转换模型中的解码器,生成目标语音的声学特征信息。3.根据权利要求1所述的方法,其中,基于源语音的音频,提取源语音的特征信息,包括:基于所述源语音的音频,提取源语音的声学特征信息,作为所述源语音的特征信息;或者基于所述源语音的音频,提取源语音的声学特征信息和源音色信息;并将所述源语音的声学特征信息和所述源语音的源音色信息拼接,作为所述源语音的特征信息。4.根据权利要求1

3任一所述的方法,其中,所述语音转换模型中的编码器采用至少一组下采样单元和上采样单元构成。5.一种语音转换模型的训练方法,其中,所述方法包括:采集数条训练语音的音频;基于各所述训练语音的音频,提取所述训练语音的训练特征信息和训练音色信息;基于各所述训练语音对应的所述训练特征信息和所述训练音色信息,训练语音转换模型。6.根据权利要求5所述的方法,其中,基于各所述训练语音的音频,提取所述训练语音的训练特征信息,包括:基于各所述训练语音的音频,提取所述训练语音的目标声学特征信息,作为所述训练语音的训练特征信息;或者基于各所述训练语音的音频,提取所述训练语音的目标声学特征信息和所述训练语音的音色信息;将所述训练语音的声学特征信息和所述训练语音的音色信息拼接,作为所述训练语音的训练特征信息。7.根据权利要求6所述的方法,其中,基于各所述训练语音对应的所述训练特征信息和所述训练音色信息,训练语音转换模型,包括:对于各所述训练语音,获取所述语音转换模型中的编码器基于所述训练语音对应的所述训练特征信息,得到的训练深度内容信息;获取所述语音转换模型中的解码器,基于所述训练深度内容信息和所述训练语音对应的所述训练音色信息,生成所述训练语音的预测声学特征信息;基于所述训练语音的目标声学特征信息和所述训练语音的预测声学特征信息,构建损
失函数;检测所述损失函数是否收敛;若未收敛,调整所述语音转换模型中的所述编码器和所述解码器的参数。使得所述损失函数趋于收敛。8.根据权利要求5

7任一所述的方法,其中,所述语音转换模型中的编码器中采用至少一组采样块,各所述采样块包括下采样单元和上采样单元。9.一种语音转换装置,其中所述装置,包括:提取模块,用于基于源语音的音频,提取源语音的特征信息;生成模块,用于基于所述源语音的特征信息和要转换的目标音色信息,采用预先训练的语音转换模型,生成目标语音的声学特征信息;合成模块,用于基于所述目标语音的声学特征信息,采用预先训练的声码器,合成目标语音的音频。10.根据权利要求9所述的装置,其中,所述生成模块,包括:编码单元,用于基于所述源语音的特征信息,采用预先训练的所述语音转换模...

【专利技术属性】
技术研发人员:王俊超陈昌滨袁俊聂志朋
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1