声码器的训练方法、装置、设备和存储介质制造方法及图纸

技术编号:33285077 阅读:18 留言:0更新日期:2022-04-30 23:50
本公开提供了一种声码器的训练方法、装置、设备和存储介质,涉及计算机技术领域,具体涉及语音合成、深度学习等人工智能领域。声码器的训练方法包括:获取已有数据,所述已有数据包括:已有音频;对所述已有音频进行数据增强处理,以获得扩充音频;基于所述已有音频和所述扩充音频,训练声码器。本公开可以提高声码器的效果。码器的效果。码器的效果。

【技术实现步骤摘要】
声码器的训练方法、装置、设备和存储介质


[0001]本公开涉及计算机
,具体涉及语音合成、深度学习等人工智能领域,尤其涉及一种声码器的训练方法、装置、设备和存储介质。

技术介绍

[0002]语音合成(Text to Speech,TTS)是指将文本转换为音频。语音合成一般采用语音合成模型对文本进行处理,以获得文本对应的音频。
[0003]语音合成模型可以包括声学模型和声码器,声学模型将输入的语音转换为声学特征,声码器将输入的声学特征转换为音频。
[0004]由于声码器对应的训练数据有限,声码器的效果不够理想。

技术实现思路

[0005]本公开提供了一种声码器的训练方法、装置、设备和存储介质。
[0006]根据本公开的一方面,提供了一种声码器的训练方法,包括:获取已有数据,所述已有数据包括:已有音频;对所述已有音频进行数据增强处理,以获得扩充音频;基于所述已有音频和所述扩充音频,训练声码器。
[0007]根据本公开的另一方面,提供了一种声码器的训练装置,包括:获取模块,用于获取已有数据,所述已有数据包括:已有音频;处理模块,用于对所述已有音频进行数据增强处理,以获得扩充音频;训练模块,用于基于所述已有音频和所述扩充音频,训练声码器。
[0008]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。
[0009]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。
[0011]根据本公开的技术方案,可以提高声码器的效果。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0014]图1是根据本公开第一实施例的示意图;
[0015]图2是根据本公开第二实施例的示意图;
[0016]图3是根据本公开第三实施例的示意图;
[0017]图4是根据本公开第四实施例的示意图;
[0018]图5是根据本公开第五实施例的示意图;
[0019]图6是根据本公开第六实施例的示意图;
[0020]图7是用来实现本公开实施例的声码器的训练方法的电子设备的示意图。
具体实施方式
[0021]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0022]一般来讲,为了提高模型效果,一般采用较大数据量的训练数据。但是,针对声码器,获得较大数据量的训练数据比较困难,在有限数据量的训练数据的基础上,声码器的效果较差。
[0023]为了提高声码器的效果,本公开提供如下实施例。
[0024]图1是根据本公开第一实施例的示意图,本实施例提供一种声码器的训练方法,所述方法包括:
[0025]101、获取已有数据,所述已有数据包括:已有音频。
[0026]102、对所述已有音频进行数据增强处理,以获得扩充音频。
[0027]103、基于所述已有音频和所述扩充音频,训练声码器。
[0028]其中,语音合成方法可以应用到不同的语音合成场景下,不同的语音合成场景比如包括:语音导航、呼叫中心、小说语音播放、智能音箱语音交互等。
[0029]其中,已有音频可以从已有训练集中获取,比如,对应不同的场景,如语音导航场景,可以从语音导航场景的已有训练集中,获取已有音频。
[0030]本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
[0031]由于已有数据的数据量有限,比如,语音导航场景的已有音频的数据量是较少的,为了扩充数据量,可以对已有音频进行数据增强处理,得到扩充音频。之后,可以将已有音频和扩充音频均作为音频样本,用于声码器的训练。
[0032]如图2所示,语音合成模型可以包括声学模型201和声码器202,声学模型用于对输入的文本进行处理,以获得文本对应的声学特征,声学特征比如为梅尔频谱;声码器用于对输入的声学特征进行处理,以获得所述文本对应的音频。
[0033]声学模型201和声码器202可以均为深度神经网络模型。
[0034]本实施例针对声码器的训练过程进行说明。
[0035]参见图2,声码器202的输入为声学特征,输出为音频,因此,在训练声码器时,可以先获得声学特征样本和音频样本,再采用声学特征样本和音频样本,训练声码器。
[0036]其中,音频样本可以包括上述的已有音频和扩充音频。
[0037]由于扩充音频是对已有音频进行数据增强处理后获得的,因此,可以基于已有音频获得扩充音频,声码器训练时的训练数据除了已有音频,还包括扩充音频,因此,丰富了
训练数据,提高了训练数据的数据量,从而在少量的已有音频的基础上,可以提高声码器的效果。
[0038]一些实施例中,所述对对所述已有音频进行数据增强处理,以获得扩充音频,包括如下项中的至少一项:对所述已有音频进行速度调整,以获得速度调整后的音频,将所述速度调整后的音频作为所述扩充音频;对所述已有音频进行基频调整,以获得基频调整后的音频,将所述基频调整后的音频作为所述扩充音频;对所述已有音频进行音量调整,以获得音量调整后的音频样本,将所述音量调整后的音频样本作为所述扩充音频。
[0039]即,可以通过调整已有音频的速度、基频、音量中的一项或多项,获得扩充音频。
[0040]假设已有音频用x1,x2,x3...表示,其中,xi(i=1,2,3...)(i是时间索引,为正整数)为音频单元。
[0041]针对速度调整,可以通过丢弃或插入一些音频单元,实现速度调整,速度调整可以包括音频加速或者音频减速,其中,可以通过丢弃一些音频单元实现音频加速,通过插入一些音频单元实现音频减速。丢弃或插入一些音频单元可以通过滤波方式实现。
[0042]针对基频调整,可以采用同步交叠相加方式,将已有音频先转换到频域,再对频域中的幅度做整体左移或者右移,对音频的基频实现降调或者升调。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声码器的训练方法,包括:获取已有数据,所述已有数据包括:已有音频;对所述已有音频进行数据增强处理,以获得扩充音频;基于所述已有音频和所述扩充音频,训练声码器。2.根据权利要求1所述的方法,其中,所述对所述已有音频进行数据增强处理,以获得扩充音频,包括如下项中的至少一项:对所述已有音频进行速度调整,以获得速度调整后的音频,将所述速度调整后的音频作为所述扩充音频;对所述已有音频进行基频调整,以获得基频调整后的音频,将所述基频调整后的音频作为所述扩充音频;对所述已有音频进行音量调整,以获得音量调整后的音频样本,将所述音量调整后的音频样本作为所述扩充音频。3.根据权利要求1或2所述的方法,其中,所述已有数据还包括声学特征样本,所述已有音频和所述扩充音频作为音频样本,所述声码器包括至少一个子模型,所述基于所述已有音频和所述扩充音频,训练声码器,包括:基于所述声学特征样本和所述音频样本,执行至少一步的模型参数更新过程,以生成所述声码器;其中,针对所述至少一步的模型参数更新过程,执行:对所述音频样本进行子带拆分,以获得至少一个真实子带音频;采用所述至少一个子模型的初始模型参数,对所述声学特征样本进行处理,以输出至少一个预测子带音频;基于所述至少一个真实子带音频和所述至少一个预测子带音频,构建损失函数;基于所述损失函数,调整所述至少一个子模型的初始模型参数,以获得所述至少一个子模型的调整后的模型参数;基于所述至少一个子模型的调整后的模型参数,确定所述至少一个子模型的更新后的模型参数。4.根据权利要求3所述的方法,其中,所述至少一步包括当前步,所述基于所述至少一个子模型的调整后的模型参数,确定所述至少一个子模型的更新后的模型参数,包括:若所述当前步的步数小于或等于第一预设值,将所述至少一个子模型的调整后的模型参数,作为所述至少一个子模型的更新后的模型参数;若所述当前步的步数大于所述第一预设值,采用所述至少一个子模型对应的稀疏化规则,对所述至少一个子模型的调整后的模型参数进行稀疏化处理,以获得所述至少一个子模型的更新后的模型参数。5.根据权利要求4所述的方法,其中,所述采用所述至少一个子模型对应的稀疏化规则,对所述至少一个子模型的调整后的模型参数进行稀疏化处理,以获得所述至少一个子模型的更新后的模型参数,包括:采用所述至少一个子模型对应的稀疏化规则,确定所述调整后的模型参数中的待处理模型参数;将所述待处理模型参数的参数值与预设系数相乘,以及,保持所述待处理模型参数之
外的未处理模型参数的参数值不变,以获得所述至少一个子模型的更新后的模型参数。6.根据权利要求5所述的方法,其中,所述将所述待处理模型参数的参数值与预设系数相乘,包括:若所述当前步的步数大于所述第一预设值,且小于或等于第二预设值,将所述待处理模型参数的参数值与第一预设系数相乘,所述第一预设系数为大于0且小于1的数值;或者,若所述当前步的步数大于所述第二预设值,将所述待处理模型参数的参数值与第二预设系数相乘,所述第二预设系数为0;其中,所述第二预设值大于所述第一预设值。7.一种声码器的训练装置,包括:获取模块,用于获取已有数据,所述已有数据包括:已有音频;处理模块,用于对所述已有音频进行数据增强处理,以获得扩充音频;训练模块,用于基于所述已...

【专利技术属性】
技术研发人员:陆嘉盛高正坤张君腾孙涛
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1