语音翻译和模型训练方法、装置、电子设备以及存储介质制造方法及图纸

技术编号：33453487 阅读：15 留言：0更新日期：2022-05-19 00:36

本公开提供了一种语音翻译方法、模型训练方法、装置、电子设备以及存储介质，涉及人工智能技术领域，尤其涉及语音翻译、语音合成和深度学习技术领域。具体实现方案为：确定与源语言语音数据对应的源频谱序列数据，其中，源频谱序列数据包括至少一个源频谱数据；对源频谱序列数据和第一位置编码序列数据进行特征提取，得到目标特征向量序列，其中，第一位置编码序列数据包括与至少一个源频谱序列数据对应的位置编码；对目标特征向量序列和第二位置编码序列数据进行处理，得到目标频谱序列数据，其中，第二位置编码序列数据包括与目标特征向量序列对应的位置编码；对目标频谱序列数据进行处理，得到与源语言语音数据对应的目标语言语音数据。语音数据。语音数据。

全部详细技术资料下载

【技术实现步骤摘要】
语音翻译和模型训练方法、装置、电子设备以及存储介质

[0001]本公开涉及人工智能
，尤其涉及语言翻译、语音合成和深度学习技术。具体地，涉及一种语音翻译方法、模型训练方法、装置、电子设备以及存储介质。

技术介绍

[0002]随着人工智能技术的发展，人工智能技术在各个领域得到了广泛的应用。例如，在人工智能
的语音
，语音翻译得到了广泛的应用。
[0003]语音翻译是指将源语言语音数据翻译为目标语言语音数据。源语言语音数据和目标语言语音数据的语种不同。

技术实现思路

[0004]本公开提供了一种语音翻译方法、模型训练方法、装置、电子设备以及存储介质。
[0005]根据本公开的一方面，提供了一种语音翻译方法，包括：确定与源语言语音数据对应的源频谱序列数据，其中，上述源频谱序列数据包括至少一个源频谱数据；对上述源频谱序列数据和第一位置编码序列数据进行特征提取，得到目标特征向量序列，其中，上述第一位置编码序列数据包括与上述至少一个源频谱数据对应的位置编码；对上述目标特征向量序列和第二位...

【技术保护点】

【技术特征摘要】
1.一种语音翻译方法，包括：确定与源语言语音数据对应的源频谱序列数据，其中，所述源频谱序列数据包括至少一个源频谱数据；对所述源频谱序列数据和第一位置编码序列数据进行特征提取，得到目标特征向量序列，其中，所述第一位置编码序列数据包括与所述至少一个源频谱序列数据对应的位置编码；对所述目标特征向量序列和第二位置编码序列数据进行处理，得到目标频谱序列数据，其中，所述第二位置编码序列数据包括与所述目标特征向量序列对应的位置编码；以及对所述目标频谱序列数据进行处理，得到与所述源语言语音数据对应的目标语言语音数据。2.根据权利要求1所述的方法，其中，所述对所述源频谱序列数据和第一位置编码序列数据进行特征提取，得到目标特征向量序列，包括：根据所述源频谱序列数据和所述第一位置编码序列数据，得到中间编码序列数据；以及对所述中间编码序列数据进行特征提取，得到所述目标特征向量序列。3.根据权利要求2所述的方法，其中，所述对所述中间编码序列数据进行特征提取，得到所述目标特征向量序列，包括：基于第一注意力策略，对所述中间编码序列数据进行处理，得到第一中间特征向量序列；以及基于第一多层感知策略，对所述第一中间特征向量序列进行处理，得到所述目标特征向量序列。4.根据权利要求1～3中任一项所述的方法，其中，所述对所述目标特征向量序列和第二位置编码序列数据进行处理，得到目标频谱序列数据，包括：根据所述目标特征向量序列和所述第二位置编码序列数据，得到第二中间特征向量序列；以及对所述第二中间特征向量序列进行处理，得到所述目标频谱序列数据。5.根据权利要求4所述的方法，其中，所述对所述第二中间特征向量序列进行处理，得到所述目标频谱序列数据，包括：基于第二注意力策略，对所述第二中间特征向量序列进行处理，得到第三中间特征向量序列；基于第二多层感知策略，对所述第三中间特征向量序列进行处理，得到第四中间特征向量序列；以及对所述第四中间特征向量序列进行处理，得到所述目标频谱序列数据。6.根据权利要求1～5中任一项所述的方法，其中，所述对所述目标频谱序列数据进行处理，得到与所述源语言语音数据对应的目标语言语音数据，包括：利用声码器处理所述目标频谱序列数据，得到与所述源语言语音数据对应的目标语言语音数据。7.根据权利要求1～6中任一项所述的方法，其中，所述确定与源语言语音数据对应的源频谱序列数据，包括：
对所述源语言语音数据进行预处理，得到与所述源语言语音数据对应的源线性谱序列数据；对所述源线性谱序列数据进行处理，得到与所述源语言语音数据对应的源梅尔谱序列数据；以及将所述源梅尔谱序列数据确定为所述源频谱序列数据。8.根据权利要求1所述的方法，其中，所述目标特征向量序列是利用语音翻译模型包括的编码器处理所述源频谱序列数据和所述第一位置编码序列数据得到的；其中，所述目标频谱序列数据是利用所述语音翻译模型包括的解码器处理所述目标特征向量序列和所述第二位置编码序列数据得到的。9.一种模型训练方法，包括：分别确定与源样本语言语音数据对应的源样本频谱序列数据和与目标样本语言语音数据对应的真实频谱序列数据，其中，所述源样本频谱序列数据包括至少一个源样本频谱数据，所述目标样本语言语音数据是对所述源样本语言语音数据进行翻译得到的；对所述源样本频谱序列数据和第一样本位置编码序列数据进行特征提取，得到样本特征向量序列，其中，所述第一样本位置编码序列数据包括与所述至少一个源样本频谱数据对应的样本位置编码；对所述样本特征向量序列和第二样本位置编码序列数据进行处理，得到预测频谱序列数据，其中，所述第二样本位置编码序列数据包括与所述样本特征向量序列对应的位置编码；以及利用所述真实频谱序列数据和所述预测频谱序列数据训练预定模型，得到语音翻译模型。10.根据权利要求9所述的方法，其中，所述预定模型包括编码器；其中，所述对所述源样本频谱序列数据和第一样本位置编码序列数据进行特征提取，得到样本特征向量序列，包括：根据所述源样本频谱序列数据和所述第一样本位置编码序列数据，得到中间样本编码序列数据；以及利用所述编码器处理所述中间样本编码序列数据，得到所述样本特征向量序列。11.根据权利要求10所述的方法，其中，所述编码器包括级联的N个编码单元，所述编码单元包括第一注意力层和第一前馈神经网络层，N是大于或等于1的整数；其中，所述利用所述编码器处理所述中间样本编码序列数据，得到所述样本特征向量序列，包括：在i＝1的情况下，利用第1层级的第一注意力层处理中间样本编码序列数据，得到第1层级的第二中间样本特征向量序列；以及利用第1层级的第一前馈神经网络层处理所述第1层级的第二中间样本特征向量序列，得到第1层级的第一中间样本特征向量序列；在1＜i≤N的情况下，利用第i层级的第一注意力层处理第(i
‑
1)层级的第一中间样本特...

【专利技术属性】
技术研发人员：梁芸铭，赵情恩，熊新雷，陈蓉，张银辉，周羊，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人