一种基于协同注意力的语音翻译方法和设备技术

技术编号：37293212 阅读：40 留言：0更新日期：2023-04-21 03:25

本发明专利技术涉及一种基于协同注意力的语音翻译方法和设备，属于自然语言处理技术领域；解决了现有技术中语音翻译方法无法对声学和文本表示分别进行编码，在注意力计算过程中无法分别捕获并融入对方的信息，导致编码不够充分，翻译结果不准确的问题；本发明专利技术的翻译方法包括以下步骤：获取待翻译的源语言语音数据；基于源语言语音数据，提取帧级别的特征序列；将帧级别的特征序列输入预先训练的语音翻译模型，得到翻译文本；语音翻译模型的高级声学编码器和文本编码器均包括协同注意力模块，通过协同注意力计算，得到融合声学及文本信息的高级声学编码器隐向量和文本编码器隐向量；通过解码器进行解码得到源语言语音数据对应的目标语言翻译文本。目标语言翻译文本。目标语言翻译文本。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于协同注意力的语音翻译方法和设备

[0001]本专利技术涉及自然语言处理
，特别涉及一种基于协同注意力的语音翻译方法和设备。

技术介绍

[0002]在进行跨语言的听说读写时，尤其对于非英文语言，绝大部分人群都是缺乏相关理解能力的。而对跨语言的听与说，皆是基于语音进行表述的，因此，形成了一个新的应用领域，即语音翻译。
[0003]所谓语音翻译，简单来说就是翻译的输入为语音模态。早期语音翻译模型的设计思路，先通过语音识别模型来对语音进行转录，然后通过文本翻译模型对转录文本进行翻译，称之为级联语音翻译。尽管级联语音翻译取得了不错的性能，这种方式存在着错误传播、翻译效率较低和语音中的副语言信息丢失的问题。
[0004]早期的方法只学习声学编码，并未考虑到源语言文本编码的学习。在之后的工作中，一个常用的思路是通过堆积两个编码器，在二者中间完成声学信息到文本信息的转换，然而，在这个过程中，现有的语音翻译模型均无法同时兼顾声学和文本编码，从而导致声学信息可能发生丢失，翻译准确度不高。

技术实现思路
/>[0005]鉴于本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于协同注意力的语音翻译方法，其特征在于，包括以下步骤：获取待翻译的源语言语音数据；基于所述源语言语音数据，提取帧级别的特征序列；将所述帧级别的特征序列输入预先训练的语音翻译模型，得到所述源语言语音数据对应的目标语言翻译文本；所述语音翻译模型包括初级声学编码器、高级声学编码器、文本编码器、门控单元和解码器；所述高级声学编码器和文本编码器均包括协同注意力模块，所述协同注意力模块用于基于所述初级声学编码器的输出进行协同注意力计算，得到融合声学及文本信息的高级声学编码器隐向量和文本编码器隐向量；所述门控单元用于对高级声学编码器隐向量和文本编码器隐向量进行加权融合，将加权融合后的表示输入所述解码器进行解码，得到待翻译的源语言语音数据对应的目标语言翻译文本。2.根据权利要求1所述的基于协同注意力的语音翻译方法，其特征在于，所述高级声学编码器和文本编码器均为多层Transformer结构，所述协同注意力模块均设置于每一层Transformer的自注意力层和前馈神经网络层之间。3.根据权利要求2所述的基于协同注意力的语音翻译方法，其特征在于，所述高级声学编码器的协同注意力模块基于所述初级声学编码器的输出进行协同注意力计算，得到高级声学编码器隐向量，包括：所述高级声学编码器接收初级声学编码器的输出，通过所述自注意力层计算得到待翻译的源语言语音数据对应的声学表示；所述协同注意力模块利用所述声学表示作为query，文本编码器输出的表示作为key和value，进行注意力计算，将得到的结果输入前馈神经网络层，得到融合声学和文本信息的高级声学编码器隐向量。4.根据权利要求2所述的基于协同注意力的语音翻译方法，其特征在于，所述初级声学编码器和文本编码器之间还包括转换器；所述文本编码器的协同注意力模块基于所述初级声学编码器的输出进行协同注意力计算，得到文本编码器隐向量，包括：利用所述转换器将初级声学编码器的输出表示经过文本模态的转换，得到文本模态表示；所述文本编码器接收所述文本模态表示，通过自注意力模块计算得到待翻译的源语言语音数据对应的文本表示；所述协同注意力模块利用所述文本表示作为query，高级声学编码器的表示作为key和value，进行注意力计算，将得到的结果输入前馈神经网络层，得到具有声学和文本信息的文本编码器隐向量。5.根据权利要求1所述的基于协同注意力的语音翻译方法，其特征在于，所述门控单元用于对...

【专利技术属性】
技术研发人员：杜权，杨木润，
申请(专利权)人：沈阳雅译网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人