一种基于对偶注意力的端到端语音翻译模型建模方法和设备技术

技术编号:37387160 阅读:17 留言:0更新日期:2023-04-27 07:26
本发明专利技术涉及一种基于对偶注意力的端到端语音翻译模型建模方法和设备,属于自然语言处理技术领域;解决了现有技术中语音翻译方法通过注意力机制只对一个编码器的输出进行计算,无法通过包含原始输入信息的语音表示对文本表示的误差进行校正,导致生成结果不准确的问题;本发明专利技术的建模方法包括以下步骤:获取语音数据集;构建初始语音翻译模型;初始语音翻译模型包括初级声学编码器、高级声学编码器、文本编码器和解码器;解码器用于基于对偶注意力机制对高级声学编码器和文本编码器的输出进行解码,得到源语言语音数据对应的目标语言翻译文本;利用语音数据集对初始语音翻译模型进行训练,经过损失函数迭代更新,得到语音翻译模型。模型。模型。

【技术实现步骤摘要】
一种基于对偶注意力的端到端语音翻译模型建模方法和设备


[0001]本专利技术涉及自然语言处理
,特别涉及一种基于对偶注意力的端到端语音翻译模型建模方法和设备。

技术介绍

[0002]不同语种语言的对话者在进行语音交流时,需要通过语音翻译进行辅助。而现有的语音翻译方法存在着错误传播等问题,翻译结果偏差较大。比如识别时在句尾少生成个“吗”,会导致翻译模型将疑问句翻译为陈述句;或语音中的副语言信息丢失,即将语音识别为文本的过程中,语音中包含的语气、情感、音调等信息发生丢失,这些信息通常不以文字的形式表达。同一句话,在不同的语气中表达的意思很可能是不同的。此外,对于一些有多种分词可能的文本,原始语音中的信息可能更有助于捕获正确的切分方式。
[0003]近期,研究人员们提出了端到端语音翻译,由于端到端模型并没有中间的输出信息,很难针对翻译过程中出现的问题进行定向的优化。尤其是在实际场景中,音频中可能包含非常多的噪声,口语化的句子结构十分不规范,如何处理这种情况,是端到端系统在实际应用时的难点与痛点。另外,语音识别和文本翻译的一个关键优势在于拥有丰富的数据积累。端到端语音翻译是一个新兴的方向,数据集大都在近几年标注,数据量的不足是语音翻译发展的最大障碍。且早期的语音翻译方法只学习声学编码,并未考虑到源语言文本编码的学习。在之后的工作中,一个常用的思路是通过堆积两个编码器,在二者中间完成声学信息到文本信息的转换,然而,在这个过程中,声学信息可能发生丢失。因此,如何能够更好的同时学习声学和文本两种维度的表示,成为了优化语音翻译模型急需解决的问题。

技术实现思路

[0004]鉴于上述的分析,本专利技术旨在提供一种基于对偶注意力的端到端语音翻译模型建模方法和设备;解决现有技术中的语音翻译方法在解码时通过注意力机制只对一个编码器的输出进行计算;对于语音翻译这种跨模态跨语言生成任务,无法通过包含原始输入信息的语音表示对文本表示的误差进行校正,导致生成结果不准确的问题。
[0005]本专利技术的目的主要是通过以下技术方案实现的:
[0006]一方面,本专利技术提供了一种基于对偶注意力的端到端语音翻译模型建模方法,包括以下步骤:
[0007]获取语音数据集;所述语音数据集包括源语言语音数据、所述源语言语音数据对应的源语言标注文本和目标语言标注文本;
[0008]构建初始语音翻译模型;所述初始语音翻译模型包括初级声学编码器、高级声学编码器、文本编码器和解码器;所述初级声学编码器用于对源语言语音数据进行特征提取及编码;所述高级声学编码器与文本编码器分别基于所述初级编码器的输出进行编码,得到高级声学编码器隐向量和文本编码器隐向量;所述解码器用于基于对偶注意力机制对所述高级声学编码器隐向量和文本编码器隐向量进行解码,得到所述源语言语音数据对应的
目标语言翻译文本;
[0009]利用所述语音数据集对所述初始语音翻译模型进行训练,经过损失函数迭代更新,得到所述语音翻译模型。
[0010]进一步的,所述解码器为多层Transformer结构;
[0011]所述解码器用于基于对偶注意力机制对所述高级声学编码器隐向量和文本编码器隐向量进行解码,包括:
[0012]在所述解码器的每一个Transformer层设置对偶关系且结构相同的第一encoder

decoder注意力模块和第二encoder

decoder注意力模块;
[0013]所述第一encoder

decoder注意力模块和第二encoder

decoder注意力模块分别通过高级声学编码器隐向量和文本编码器隐向量获取信息,通过串行或并行任一种处理方式,进行注意力计算,得到融合声学及文本信息的张量表示。
[0014]进一步的,所述第一encoder

decoder注意力模块和第二encoder

decoder注意力模块采用串行处理方式,包括:
[0015]将所述文本编码器隐向量输入所述第一encoder

decoder注意力模块进行注意力计算,对所述第一encoder

decoder注意力模块的输出执行残差、层正则化后输入第二encoder

decoder注意力模块;
[0016]所述第二encoder

decoder注意力模块接收第一encoder

decoder注意力模块的输出和高级声学编码器隐向量,进行注意力计算,得到融合声学及文本信息的张量表示。
[0017]进一步的,所述第一encoder

decoder注意力模块和第二encoder

decoder注意力模块采用并行处理方式,包括:将所述文本编码器隐向量和高级声学编码器隐向量分别输入第一encoder

decoder注意力模块和第二encoder

decoder注意力模块进行注意力计算,将两个注意力模块的输出相加、执行残差和层正则化,得到融合声学和文本信息的张量表示。
[0018]进一步的,利用所述文本编码器隐向量和高级声学编码器隐向量进行注意力计算之前,还包括:通过预设的概率对所述文本编码器隐向量和高级声学编码器隐向量中每个位置的表示进行随机丢弃,将随机丢弃后剩余的文本编码器隐向量和高级声学编码器隐向量分别输入对应的注意力模块进行注意力计算。
[0019]进一步的,利用所述语音数据集对所述初始语音翻译模型进行训练,包括:将所述源语言语音数据输入所述初级声学编码器;
[0020]对所述初级声学编码器与高级声学编码器的输出分别计算对于源语言标注文本的损失;
[0021]对所述文本编码器和解码器的输出分别计算对于目标语言标注文本的损失;
[0022]经过反向迭代最小化损失,得到收敛的语音翻译模型。
[0023]进一步的,初级声学编码器和文本编码器之间还包括转换器;
[0024]所述高级声学编码器与文本编码器分别基于所述初级编码器的输出进行编码,得到高级声学编码器隐向量和文本编码器隐向量,包括:
[0025]将初级声学编码器的输出表示输入到高级声学编码器,通过高级声学编码器中的多个特征提取层进行编码,得到高级声学编码器隐向量;
[0026]利用所述转换器将初级声学编码器的输出表示经过文本模态的转换,输入到文本
编码器,通过多个特征提取层进行编码,得到文本编码器隐向量。
[0027]进一步的,所述利用所述转换器将初级声学编码器的输出表示经过文本模态转换,包括:
[0028]利用初级声学编码器的输出计算在预测的源语言文本上的CTC预测分布;
[0029]通过CTC预测分布,对源语言词嵌入矩阵进行加权,得到初级文本模态表示;
[0030]通过CTC预测分布对所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对偶注意力的端到端语音翻译模型建模方法,其特征在于,包括以下步骤:获取语音数据集;所述语音数据集包括源语言语音数据、所述源语言语音数据对应的源语言标注文本和目标语言标注文本;构建初始语音翻译模型;所述初始语音翻译模型包括初级声学编码器、高级声学编码器、文本编码器和解码器;所述初级声学编码器用于对源语言语音数据进行特征提取及编码;所述高级声学编码器与文本编码器分别基于所述初级编码器的输出进行编码,得到高级声学编码器隐向量和文本编码器隐向量;所述解码器用于基于对偶注意力机制对所述高级声学编码器隐向量和文本编码器隐向量进行解码,得到所述源语言语音数据对应的目标语言翻译文本;利用所述语音数据集对所述初始语音翻译模型进行训练,经过损失函数迭代更新,得到所述语音翻译模型。2.根据权利要求1所述的基于对偶注意力的端到端语音翻译模型建模方法,其特征在于,所述解码器为多层Transformer结构;所述解码器用于基于对偶注意力机制对所述高级声学编码器隐向量和文本编码器隐向量进行解码,包括:在所述解码器的每一个Transformer层设置对偶关系且结构相同的第一encoder

decoder注意力模块和第二encoder

decoder注意力模块;所述第一encoder

decoder注意力模块和第二encoder

decoder注意力模块分别通过高级声学编码器隐向量和文本编码器隐向量获取信息,通过串行或并行任一种处理方式,进行注意力计算,得到融合声学及文本信息的张量表示。3.根据权利要求2所述的基于对偶注意力的端到端语音翻译模型建模方法,其特征在于,所述第一encoder

decoder注意力模块和第二encoder

decoder注意力模块采用串行处理方式,包括:将所述文本编码器隐向量输入所述第一encoder

decoder注意力模块进行注意力计算,对所述第一encoder

decoder注意力模块的输出执行残差、层正则化后输入第二encoder

decoder注意力模块;所述第二encoder

decoder注意力模块接收第一encoder

decoder注意力模块的输出和高级声学编码器隐向量,进行注意力计算,得到融合声学及文本信息的张量表示。4.根据权利要求2所述的基于对偶注意力的端到端语音翻译模型建模方法,其特征在于,所述第一encoder

decoder注意力模块和第二encoder

decoder注意力模块采用并行处理方式,包括:将所述文本编码器隐向量和高级声学编码器隐向量分别输入第一encoder

decod...

【专利技术属性】
技术研发人员:杜权杨迪
申请(专利权)人:沈阳雅译网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1