一种基于多模态对比学习的多语言语音神经机器翻译方法技术

技术编号:40315870 阅读:23 留言:0更新日期:2024-02-07 20:58
一种基于多模态对比学习的多语言语音神经机器翻译方法,利用多个双语翻译词典构建多语言翻译词典,在原始的语音识别数据基础上通过对文本中的词语进行随机替换的方式构建伪语音识别数据;在原始语音识别数据和构建的伪数据基础上,利用句子级对比学习算法对语音编码器和文本词嵌入层进行训练,将语音表示和文本表示映射到同一表示空间;利用词级别对比学习算法对语音编码器和文本词嵌入层进行继续训练,提升词级别跨语言跨模态对齐的准确率;利用训练好的语音编码器和文本词嵌入层对语音翻译模型进行初始化,在多语言翻译任务、语音识别、语音翻译任务上对多语言语音翻译模型中的参数进行训练。本发明专利技术利用显式词级别对齐信息和“粗粒度‑细粒度”对比学习算法,提升多语言语音翻译模型对于跨语言跨模态信息的对齐能力,从而提升多语言语音翻译的性能。

【技术实现步骤摘要】

本专利技术属于机器翻译领域,具体涉及一种基于多模态对比学习的多语言语音神经机器翻译方法


技术介绍

1、近年来,端到端语音翻译成为机器翻译领域一个重要的研究课题。传统的级联式语音翻译模型通常首先利用自动语音识别技术将输入语音信号转换成源语言文本,而后利用机器翻译系统将其翻译为目标语言。这种两阶段翻译方式容易造成错误传播和翻译延迟。而端到端语音翻译模型直接将输入的源语音信号直接翻译成目标语言文本,在保持了级联语音翻译模型性能的同时极大地提升了语音翻译的速度。

2、然而,现有的语音翻译模型仍然面临一些挑战。一方面,相比于传统的“文本-文本”翻译,“语音-文本”翻译通常缺少大规模多语言翻译数据,因此容易造成欠拟合现象。为此,一些研究方法在语音翻译模型训练过程中引入“文本-文本”翻译数据,通过预训练、多任务学习、知识蒸馏等方式使语音翻译模型能够更好地利用文本翻译模型中存储的知识以获得更好的跨语言迁移能力和翻译质量。

3、另一方面,由于语音翻译同时对跨语言和跨模态信息进行建模,因此能否将语音和文本的跨模态输入映射到同一表示空间对知识迁移效果具本文档来自技高网...

【技术保护点】

1.一种基于多模态对比学习的多语言语音神经机器翻译方法,其特征在于,步骤如下:

2.根据权利要求1所述的一种基于多模态对比学习的多语言语音神经机器翻译方法,其特征在于,所述步骤1利用多个“英语-其他语言”之间的双语词典构建多语言词典;其中,查询键值Key为英文词语,对应的值Value为所有其他语言中与键值Key含义相同的词语;基于上述多语言词典,通过随机替换的方式构建伪平行语料;将原始的语音翻译数据中的一组平行语料表示为(S,X,Y),其中,S表示输入源语言语音信号,X表示语音识别得到的源语言文本,Y表示目标语言文本;将X中的每个词语以一定的概率替换为其他语言中含义相同的词语...

【技术特征摘要】

1.一种基于多模态对比学习的多语言语音神经机器翻译方法,其特征在于,步骤如下:

2.根据权利要求1所述的一种基于多模态对比学习的多语言语音神经机器翻译方法,其特征在于,所述步骤1利用多个“英语-其他语言”之间的双语词典构建多语言词典;其中,查询键值key为英文词语,对应的值value为所有其他语言中与键值key含义相同的词语;基于上述多语言词典,通过随机替换的方式构建伪平行语料;将原始的语音翻译数据中的一组平行语料表示为(s,x,y),其中,s表示输入源语言语音信号,x表示语音识别得到的源语言文本,y表示目标语言文本;将x中的每个词语以一定的概率替换为其他语言中含义相同的词语,从而得到伪数据x′,并将(s,x′,y)作为一组伪平行语料。

3.根据权利要求1或2所述的一种基于多模态对比学习的多语言语音神经机器翻译方法,其特征在于,所述步骤2为,利用原始的语音识别语料(s,x)和步骤1构建的伪平行语料(s,x′)对语音翻译模型中的语音编码器和文本词嵌入层进行训练,提升其跨语言跨模态的对齐能力;给定原始平行语料和伪平行语料的集合d=dasr∪da′sr,在训练过程中从d中采样一个批次的句对利用语音编码器和文本词嵌入层分别对语音信号s和输入文本x进行编码得到对应的输出表示和每个批次中,sk与xk、sk与x′k为两组正样本,sk与批次中的其他句子xi/xi′(i≠k)为负样本;在此基础上利用对比学习算法对编码器参数进行训练,使得sk与xk、x′k...

【专利技术属性】
技术研发人员:黄德根刘俊鹏李玖一余浩
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1