【技术实现步骤摘要】
一种基于对偶注意力的端到端语音翻译模型建模方法和设备
[0001]本专利技术涉及自然语言处理
,特别涉及一种基于对偶注意力的端到端语音翻译模型建模方法和设备。
技术介绍
[0002]不同语种语言的对话者在进行语音交流时,需要通过语音翻译进行辅助。而现有的语音翻译方法存在着错误传播等问题,翻译结果偏差较大。比如识别时在句尾少生成个“吗”,会导致翻译模型将疑问句翻译为陈述句;或语音中的副语言信息丢失,即将语音识别为文本的过程中,语音中包含的语气、情感、音调等信息发生丢失,这些信息通常不以文字的形式表达。同一句话,在不同的语气中表达的意思很可能是不同的。此外,对于一些有多种分词可能的文本,原始语音中的信息可能更有助于捕获正确的切分方式。
[0003]近期,研究人员们提出了端到端语音翻译,由于端到端模型并没有中间的输出信息,很难针对翻译过程中出现的问题进行定向的优化。尤其是在实际场景中,音频中可能包含非常多的噪声,口语化的句子结构十分不规范,如何处理这种情况,是端到端系统在实际应用时的难点与痛点。另外,语音识别和文本翻译的一个关键优势在于拥有丰富的数据积累。端到端语音翻译是一个新兴的方向,数据集大都在近几年标注,数据量的不足是语音翻译发展的最大障碍。且早期的语音翻译方法只学习声学编码,并未考虑到源语言文本编码的学习。在之后的工作中,一个常用的思路是通过堆积两个编码器,在二者中间完成声学信息到文本信息的转换,然而,在这个过程中,声学信息可能发生丢失。因此,如何能够更好的同时学习声学和文本两种维度的表示,成为了优化 ...
【技术保护点】
【技术特征摘要】
1.一种基于对偶注意力的端到端语音翻译模型建模方法,其特征在于,包括以下步骤:获取语音数据集;所述语音数据集包括源语言语音数据、所述源语言语音数据对应的源语言标注文本和目标语言标注文本;构建初始语音翻译模型;所述初始语音翻译模型包括初级声学编码器、高级声学编码器、文本编码器和解码器;所述初级声学编码器用于对源语言语音数据进行特征提取及编码;所述高级声学编码器与文本编码器分别基于所述初级编码器的输出进行编码,得到高级声学编码器隐向量和文本编码器隐向量;所述解码器用于基于对偶注意力机制对所述高级声学编码器隐向量和文本编码器隐向量进行解码,得到所述源语言语音数据对应的目标语言翻译文本;利用所述语音数据集对所述初始语音翻译模型进行训练,经过损失函数迭代更新,得到所述语音翻译模型。2.根据权利要求1所述的基于对偶注意力的端到端语音翻译模型建模方法,其特征在于,所述解码器为多层Transformer结构;所述解码器用于基于对偶注意力机制对所述高级声学编码器隐向量和文本编码器隐向量进行解码,包括:在所述解码器的每一个Transformer层设置对偶关系且结构相同的第一encoder
‑
decoder注意力模块和第二encoder
‑
decoder注意力模块;所述第一encoder
‑
decoder注意力模块和第二encoder
‑
decoder注意力模块分别通过高级声学编码器隐向量和文本编码器隐向量获取信息,通过串行或并行任一种处理方式,进行注意力计算,得到融合声学及文本信息的张量表示。3.根据权利要求2所述的基于对偶注意力的端到端语音翻译模型建模方法,其特征在于,所述第一encoder
‑
decoder注意力模块和第二encoder
‑
decoder注意力模块采用串行处理方式,包括:将所述文本编码器隐向量输入所述第一encoder
‑
decoder注意力模块进行注意力计算,对所述第一encoder
‑
decoder注意力模块的输出执行残差、层正则化后输入第二encoder
‑
decoder注意力模块;所述第二encoder
‑
decoder注意力模块接收第一encoder
‑
decoder注意力模块的输出和高级声学编码器隐向量,进行注意力计算,得到融合声学及文本信息的张量表示。4.根据权利要求2所述的基于对偶注意力的端到端语音翻译模型建模方法,其特征在于,所述第一encoder
‑
decoder注意力模块和第二encoder
‑
decoder注意力模块采用并行处理方式,包括:将所述文本编码器隐向量和高级声学编码器隐向量分别输入第一encoder
‑
decod...
【专利技术属性】
技术研发人员:杜权,杨迪,
申请(专利权)人:沈阳雅译网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。