语音翻译和模型训练方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:33453487 阅读:9 留言:0更新日期:2022-05-19 00:36
本公开提供了一种语音翻译方法、模型训练方法、装置、电子设备以及存储介质,涉及人工智能技术领域,尤其涉及语音翻译、语音合成和深度学习技术领域。具体实现方案为:确定与源语言语音数据对应的源频谱序列数据,其中,源频谱序列数据包括至少一个源频谱数据;对源频谱序列数据和第一位置编码序列数据进行特征提取,得到目标特征向量序列,其中,第一位置编码序列数据包括与至少一个源频谱序列数据对应的位置编码;对目标特征向量序列和第二位置编码序列数据进行处理,得到目标频谱序列数据,其中,第二位置编码序列数据包括与目标特征向量序列对应的位置编码;对目标频谱序列数据进行处理,得到与源语言语音数据对应的目标语言语音数据。语音数据。语音数据。

【技术实现步骤摘要】
语音翻译和模型训练方法、装置、电子设备以及存储介质


[0001]本公开涉及人工智能
,尤其涉及语言翻译、语音合成和深度学习技术。具体地,涉及一种语音翻译方法、模型训练方法、装置、电子设备以及存储介质。

技术介绍

[0002]随着人工智能技术的发展,人工智能技术在各个领域得到了广泛的应用。例如,在人工智能
的语音
,语音翻译得到了广泛的应用。
[0003]语音翻译是指将源语言语音数据翻译为目标语言语音数据。源语言语音数据和目标语言语音数据的语种不同。

技术实现思路

[0004]本公开提供了一种语音翻译方法、模型训练方法、装置、电子设备以及存储介质。
[0005]根据本公开的一方面,提供了一种语音翻译方法,包括:确定与源语言语音数据对应的源频谱序列数据,其中,上述源频谱序列数据包括至少一个源频谱数据;对上述源频谱序列数据和第一位置编码序列数据进行特征提取,得到目标特征向量序列,其中,上述第一位置编码序列数据包括与上述至少一个源频谱数据对应的位置编码;对上述目标特征向量序列和第二位置编码序列数据进行处理,得到目标频谱序列数据,其中,所述第二位置编码序列数据包括与所述目标特征向量序列对应的位置编码;以及,对上述目标频谱序列数据进行处理,得到与上述源语言语音数据对应的目标语言语音数据。
[0006]根据本公开的另一方面,提供了一种模型训练方法,包括:分别确定与源样本语言语音数据对应的源样本频谱序列数据和与目标样本语言语音数据对应的真实频谱序列数据,其中,上述源样本频谱序列数据包括至少一个源样本频谱数据,上述目标样本语言语音数据是对上述源样本语言语音数据进行翻译得到的;对上述源样本频谱序列数据和第一样本位置编码序列数据进行特征提取,得到样本特征向量序列,其中,所述第一样本位置编码序列数据包括与上述至少一个源样本频谱数据对应的样本位置编码;对上述样本特征向量序列和第二样本位置编码序列数据进行处理,得到预测频谱序列数据,其中,所述第二样本位置编码序列数据包括与所述样本特征向量序列对应的样本位置编码;以及,利用上述真实频谱序列数据和上述预测频谱序列数据训练预定模型,得到语音翻译模型。
[0007]根据本公开的另一方面,提供了一种语音翻译装置,包括:第一确定模块,用于确定与源语言语音数据对应的源频谱序列数据,其中,上述源频谱序列数据包括至少一个源频谱数据;第一获得模块,用于对上述源频谱序列数据和第一位置编码序列数据进行特征提取,得到目标特征向量序列,其中,上述第一位置编码序列数据包括与上述至少一个源频谱数据对应的位置编码;第二获得模块,用于对上述目标特征向量序列和第二位置编码序列数据进行处理,得到目标频谱序列数据,其中,上述第二位置编码序列数据包括与上述目标特征向量序列对应的位置编码;以及,第三获得模块,用于对上述目标频谱序列数据进行处理,得到与上述源语言语音数据对应的目标语言语音数据。
[0008]根据本公开的另一方面,提供了一种模型训练装置,包括:第二确定模块,用于分别确定与源样本语言语音数据对应的源样本频谱序列数据和与目标样本语言语音数据对应的真实频谱序列数据,其中,上述源样本频谱序列数据包括至少一个源样本频谱数据,上述目标样本语言语音数据是对上述源样本语言语音数据进行翻译得到的;第四获得模块,用于对上述源样本频谱序列数据和第一样本位置编码序列数据进行特征提取,得到样本特征向量序列,其中,上述第一样本位置编码序列数据包括与上述至少一个源样本频谱数据对应的样本位置编码;第五获得模块,用于对上述样本特征向量序列和第二样本位置编码序列数据进行处理,得到预测频谱序列数据,其中,上述第二样本位置编码序列数据包括与上述样本特征向量序列对应的样本位置编码;以及,第六获得模块,用于利用上述真实频谱序列数据和上述预测频谱序列数据训练预定模型,得到语音翻译模型。
[0009]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行本公开所述的方法。
[0010]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行本公开所述的方法。
[0011]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现本公开所述的方法。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0014]图1示意性示出了根据本公开实施例的可以应用语音翻译方法、训练方法及装置的示例性系统架构;
[0015]图2示意性示出了根据本公开实施例的语音翻译方法的流程图;
[0016]图3A示意性示出了根据本公开实施例的语音翻译过程的示例示意图;
[0017]图3B示意性示出了根据本公开实施例的语音翻译过程中的数据的示例示意图;
[0018]图4示意性示出了根据本公开实施例的模型训练方法的流程图;
[0019]图5示意性示出了根据本公开实施例的训练过程的示例示意图;
[0020]图6示意性示出了根据本公开实施例的语音翻译装置的框图;
[0021]图7示意性示出了根据本公开实施例的模型训练装置的框图;以及
[0022]图8示意性示出了根据本公开实施例的适于实现语音翻译方法和训练方法的电子设备的框图。
具体实施方式
[0023]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同
样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0024]可以利用如下方式实现语音翻译。首先,利用语音识别模型将源语言语音数据转换为源语言文本数据。然后,利用文本翻译模型将源语言文本数据翻译为目标语言文本数据。最后,利用语言合成模型将目标语言文本数据转换为目标语言语音数据。
[0025]上述方式需要源语言和目标语言都有各自的文字,并且需要源语言具有对应的语音识别模型,以及目标语言具有对应的语音合成模型。然而,存在较多的语言并没有与其对应的文字,即存在较多不具有文字的语言,因此,也难以具有对应的语音识别模型和语音合成模型。针对不具有文字的语言,上述方式将难以适用。此外,上述方式涉及语音识别模型、文本翻译模型和语音合成模型,最终得到的结果将会受到上述模型产生的误差的影响,降低了语音翻译质量。
[0026]为此,本公开实施例提出了一种语音翻译方案。对源频谱序列数据和第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音翻译方法,包括:确定与源语言语音数据对应的源频谱序列数据,其中,所述源频谱序列数据包括至少一个源频谱数据;对所述源频谱序列数据和第一位置编码序列数据进行特征提取,得到目标特征向量序列,其中,所述第一位置编码序列数据包括与所述至少一个源频谱序列数据对应的位置编码;对所述目标特征向量序列和第二位置编码序列数据进行处理,得到目标频谱序列数据,其中,所述第二位置编码序列数据包括与所述目标特征向量序列对应的位置编码;以及对所述目标频谱序列数据进行处理,得到与所述源语言语音数据对应的目标语言语音数据。2.根据权利要求1所述的方法,其中,所述对所述源频谱序列数据和第一位置编码序列数据进行特征提取,得到目标特征向量序列,包括:根据所述源频谱序列数据和所述第一位置编码序列数据,得到中间编码序列数据;以及对所述中间编码序列数据进行特征提取,得到所述目标特征向量序列。3.根据权利要求2所述的方法,其中,所述对所述中间编码序列数据进行特征提取,得到所述目标特征向量序列,包括:基于第一注意力策略,对所述中间编码序列数据进行处理,得到第一中间特征向量序列;以及基于第一多层感知策略,对所述第一中间特征向量序列进行处理,得到所述目标特征向量序列。4.根据权利要求1~3中任一项所述的方法,其中,所述对所述目标特征向量序列和第二位置编码序列数据进行处理,得到目标频谱序列数据,包括:根据所述目标特征向量序列和所述第二位置编码序列数据,得到第二中间特征向量序列;以及对所述第二中间特征向量序列进行处理,得到所述目标频谱序列数据。5.根据权利要求4所述的方法,其中,所述对所述第二中间特征向量序列进行处理,得到所述目标频谱序列数据,包括:基于第二注意力策略,对所述第二中间特征向量序列进行处理,得到第三中间特征向量序列;基于第二多层感知策略,对所述第三中间特征向量序列进行处理,得到第四中间特征向量序列;以及对所述第四中间特征向量序列进行处理,得到所述目标频谱序列数据。6.根据权利要求1~5中任一项所述的方法,其中,所述对所述目标频谱序列数据进行处理,得到与所述源语言语音数据对应的目标语言语音数据,包括:利用声码器处理所述目标频谱序列数据,得到与所述源语言语音数据对应的目标语言语音数据。7.根据权利要求1~6中任一项所述的方法,其中,所述确定与源语言语音数据对应的源频谱序列数据,包括:
对所述源语言语音数据进行预处理,得到与所述源语言语音数据对应的源线性谱序列数据;对所述源线性谱序列数据进行处理,得到与所述源语言语音数据对应的源梅尔谱序列数据;以及将所述源梅尔谱序列数据确定为所述源频谱序列数据。8.根据权利要求1所述的方法,其中,所述目标特征向量序列是利用语音翻译模型包括的编码器处理所述源频谱序列数据和所述第一位置编码序列数据得到的;其中,所述目标频谱序列数据是利用所述语音翻译模型包括的解码器处理所述目标特征向量序列和所述第二位置编码序列数据得到的。9.一种模型训练方法,包括:分别确定与源样本语言语音数据对应的源样本频谱序列数据和与目标样本语言语音数据对应的真实频谱序列数据,其中,所述源样本频谱序列数据包括至少一个源样本频谱数据,所述目标样本语言语音数据是对所述源样本语言语音数据进行翻译得到的;对所述源样本频谱序列数据和第一样本位置编码序列数据进行特征提取,得到样本特征向量序列,其中,所述第一样本位置编码序列数据包括与所述至少一个源样本频谱数据对应的样本位置编码;对所述样本特征向量序列和第二样本位置编码序列数据进行处理,得到预测频谱序列数据,其中,所述第二样本位置编码序列数据包括与所述样本特征向量序列对应的位置编码;以及利用所述真实频谱序列数据和所述预测频谱序列数据训练预定模型,得到语音翻译模型。10.根据权利要求9所述的方法,其中,所述预定模型包括编码器;其中,所述对所述源样本频谱序列数据和第一样本位置编码序列数据进行特征提取,得到样本特征向量序列,包括:根据所述源样本频谱序列数据和所述第一样本位置编码序列数据,得到中间样本编码序列数据;以及利用所述编码器处理所述中间样本编码序列数据,得到所述样本特征向量序列。11.根据权利要求10所述的方法,其中,所述编码器包括级联的N个编码单元,所述编码单元包括第一注意力层和第一前馈神经网络层,N是大于或等于1的整数;其中,所述利用所述编码器处理所述中间样本编码序列数据,得到所述样本特征向量序列,包括:在i=1的情况下,利用第1层级的第一注意力层处理中间样本编码序列数据,得到第1层级的第二中间样本特征向量序列;以及利用第1层级的第一前馈神经网络层处理所述第1层级的第二中间样本特征向量序列,得到第1层级的第一中间样本特征向量序列;在1<i≤N的情况下,利用第i层级的第一注意力层处理第(i

1)层级的第一中间样本特...

【专利技术属性】
技术研发人员:梁芸铭赵情恩熊新雷陈蓉张银辉周羊
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1