一种语音转换方法、装置、存储介质及电子设备制造方法及图纸

技术编号:32209993 阅读:15 留言:0更新日期:2022-02-09 17:15
本公开涉及自然语音处理、语音和深度学习等人工智能技术领域,提供了一种语音转换方法、装置、存储介质及电子设备,包括:接收待转换的源音频;对源音频进行内容信息编码,得到第一特征;获取目标发音人的指定音频;对指定音频进行语音识别,得到第二特征;将第一特征和第二特征输入至语音转换模型,得到目标音频。这里采用端到端的语音转换训练,有效避免了单独训练声码器的繁琐过程,不再需要获取目标发音人的大量音频进行单独的声码器模型训练。由此,无需平行数据,即可实现任意源音频到目标发音人的音色转换。并且,将声学模型和声码器进行协同建模,语音转换的整体模型规模大幅减小。显著节存储资源和计算资源,有效提升语音转换效率。语音转换效率。语音转换效率。

【技术实现步骤摘要】
一种语音转换方法、装置、存储介质及电子设备


[0001]本公开涉及自然语音处理、语音和深度学习等人工智能
,尤其涉及语音转换方法、装置、存储介质及电子设备。

技术介绍

[0002]语音转换是指将源音频转化成具有目标发音人的音色特点的语音。在变声、配音、语音模仿等多个领域有着重要的用途,是当前语音技术的前沿且重要的技术分支。但是,目前的语音转换过程,需要首先获取大量的目标发音人的语料,进行语音编码模型的训练和声码器的训练,模型训练过程繁琐码器对声学特征进行语音转换,才能得到最终的目标语音。

技术实现思路

[0003]本公开提供了一种用于语音转换方法、装置、设备以及存储介质。
[0004]根据本公开的一方面,提供了一种语音转换方法,包括:接收待转换的源音频;对所述源音频进行内容信息编码,得到第一特征;获取目标发音人的指定音频;对所述指定音频进行语音识别,得到第二特征;将所述第一特征和所述第二特征输入至语音转换模型,得到目标音频。
[0005]根据本公开一实施方式,所述将所述第一特征和所述第二特征输入至语音转换模型,得到目标音频,包括:将所述第一特征和所述第二特征输入至语音转换模型,基于源音频的帧,在所述第一特征中添加所述第二特征,得到联合编码;对所述联合编码进行特征融合,得到融合特征;将所述融合特征进行信号转换,得到所述目标音频。
[0006]根据本公开一实施方式,所述方法还包括:对所述源音频和所述指定进行基频提取,得到基频信息;相应的所述将所述第一特征和所述第二特征输入至语音转换模型,得到目标音频,包括:将所述基频信息、所述第一特征和所述第二特征输入至语音转换模型,得到目标音频。
[0007]根据本公开一实施方式,所述方法还包括:对所述目标音频进行内容信息编码,得到内容特征;根据所述内容特征与所述第一特征,对所述目标音频行第一损失判别。
[0008]根据本公开一实施方式,所述方法还包括:获取目标发音人的样本音频;基于所述样本音频和所述目标音频,进行判别模型训练;利用所述判别模型,对所述目标音频进行第二损失判别。
[0009]根据本公开一实施方式,所述第二特征包括目标发音人的音色特征;所述第一特征包括所述源音频的内容特征信息。
[0010]根据本公开的第二方面,提供了一种语音转换装置,包括:接收模块,用于接收待转换的源音频;内容信息编码模块,用于对所述源音频进行内容信息编码,得到第一特征;指定音频获取模块,用于获取目标发音人的指定音频;识别模块,用于对所述指定音频进行语音识别,得到第二特征;转换模块,用于将所述第一特征和所述第二特征输入至语音转换
模型,得到目标音频。
[0011]根据本公开一实施方式,所述转换模块包括:编码子模块,用于将所述第一特征和所述第二特征输入至语音转换模型,基于源音频的帧,在所述第一特征中添加所述第二特征,得到联合编码;特征融合子模块,用于对所述联合编码进行特征融合,得到融合特征;声码转换子模块,用于将所述融合特征进行信号转换,得到所述目标音频。
[0012]根据本公开一实施方式,所述装置还包括:基频提取模块,用于对所述源音频和所述指定进行基频提取,得到基频信息;相应的所述转换模块将所述第一特征和所述第二特征输入至语音转换模型,得到目标音频,包括:所述转换模块将所述基频信息、所述第一特征和所述第二特征输入至语音转换模型,得到目标音频。
[0013]根据本公开一实施方式,所述装置还包括:目标内容编码模块,用于对所述目标音频进行内容信息编码,得到内容特征;第一损失判别模块,用于根据所述内容特征与所述第一特征,对所述目标音频行第一损失判别。
[0014]根据本公开一实施方式,所述装置还包括:样本获取模块,用于获取目标发音人的样本音频;判别模型训练模块,用于基于所述样本音频和所述目标音频,进行判别模型训练;第一损失判别模块,用于利用所述判别模型,对所述目标音频进行第二损失判别。
[0015]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述语音转换方法。
[0016]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述语音转换方法。
[0017]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述语音转换方法。
[0018]本公开实施例语音转换方法,对所接收的待转换的源音频进行内容信息编码,得到第一特征,并获取目标发音人的指定音频,以对指定音频进行语音识别,得到第二特征,最后将第一特征和第二特征输入至语音转换模型,得到目标音频。这里采用端到端的语音转换训练,有效避免了单独训练声码器的繁琐过程,不再需要获取目标发音人的大量音频进行单独的声码器模型训练。由此,不需要平行数据,就能够实现由任意源音频到目标发音人的音色转换。并且,这里将声学模型和声码器进行协同建模,语音转换的整个过程中,整体模型规模大幅减小。显著节存储资源和计算资源,并有效提升语音转换效率。
[0019]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0020]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0021]图1是根据本公开第一实施例语音转换方法的实现流程示意图;
[0022]图2是根据本公开第二实施例语音转换方法的实现流程示意图;
[0023]图3是根据本公开语音转换方法的具体应用示例的模型架构示意图;
[0024]图4是根据本公开语音转换装置的一种可选组成结构示意图;
[0025]图5示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
[0026]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0027]图1是根据本公开第一实施例语音转换方法的实现流程示意图。参考图1,本公开第一实施例提供的语音转换方法,至少包括如下操作:
[0028]S101,接收待转换的源音频。
[0029]在本公开这一实施方式中,待转换的源音频可以是任意需要进行语音转换的音频。举例说明,在做配音音频或做变声处理过程中,需要将说话人A说出的语句Y转换为具有目标发音人B的音色特点的目标音频,则源音频指说话人A所说出的语句Y的音频。这里对源音频的示例不形成本公开对源音频本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音转换方法,包括:接收待转换的源音频;对所述源音频进行内容信息编码,得到第一特征;获取目标发音人的指定音频;对所述指定音频进行语音识别,得到第二特征;将所述第一特征和所述第二特征输入至语音转换模型,得到目标音频。2.根据权利要求1所述的方法,其中,所述将所述第一特征和所述第二特征输入至语音转换模型,得到目标音频,包括:将所述第一特征和所述第二特征输入至语音转换模型,基于源音频的帧,在所述第一特征中添加所述第二特征,得到联合编码;对所述联合编码进行特征融合,得到融合特征;将所述融合特征进行信号转换,得到所述目标音频。3.根据权利要求1所述的方法,所述方法还包括:对所述源音频和所述指定进行基频提取,得到基频信息;相应的所述将所述第一特征和所述第二特征输入至语音转换模型,得到目标音频,包括:将所述基频信息、所述第一特征和所述第二特征输入至语音转换模型,得到目标音频。4.根据权利要求1所述的方法,所述方法还包括:对所述目标音频进行内容信息编码,得到内容特征;根据所述内容特征与所述第一特征,对所述目标音频行第一损失判别。5.根据权利要求1所述的方法,所述方法还包括:获取目标发音人的样本音频;基于所述样本音频和所述目标音频,进行判...

【专利技术属性】
技术研发人员:聂志朋王俊超
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1